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内 容 简 介 


本 书 侧 重 于 大 数据 的 实践 性 技术 ， 系 统 地 介绍 了 主流 大 数据 平台 及 工具 的 安装 部 署 、 管 理 维护 和 应 用 
开发 。 平 台 和 工具 的 选择 均 为 当前 业界 主流 的 开源 产品 ， 因 此 ， 对 于 读者 来 说 ， 有 很 强 的 可 操作 性 。 

本 书 涉及 的 开源 技术 包括 : HDFS、MapReduce、YARN、Zookeeper、HBase、Hive、Sqoop、Storm、 
Kafka、Flume 等 。 除 介绍 一 般 性 的 背景 知识 、 安 装 部 署 、 管 理 维护 和 应 用 开发 技术 外 ， 还 特别 注重 案例 实 
践 ， 重 要 的 技术 点 以 实际 工作 场景 或 案例 为 依托 ， 使 读者 能 快速 入 门 ， 参 考 案例 动手 实践 ， 通 过 具体 深入 
的 实践 ， 体 会 大 数据 的 技术 本 质 特征 ， 领 略 大 数据 技术 带 来 的 创新 理念 ， 更 好 地 理解 和 把 握 信息 技 术 的 发 
展 趋 势 。 

本 书 主要 内 容 包括 以 下 几 大 部 分 。 

大 数据 存储 篇 : 以 HDFS 为 基础 ， 介 绍 分 布 式 文件 系统 的 原理 、 安 装 、 命令 的 使 用 、 编 程 ， 介 绍 如 
何 用 HDFS 实现 ， 并 通过 HTTP 调用 。 

大 数据 计算 篇 : 以 MapReduce, YARN 为 基础 ， 介 绍 分 布 式 计算 的 原理 、 部 署 ， 以 及 编程 案例 。 

非 关 系 型 数据 库 篇 : 以 HBase 为 基础 ， 重 点 介绍 非 关系 型 数据 库 的 优势 、 原 理 、 部 署 ， 以 及 命令 行使 
用 ， 编 程 案例 ， 与 Sqoop 配合 使 用 等 。 

大 数据 仓库 篇 : 以 Hive、 数 据 仓库 等 为 基础 ， 重 点 介绍 数据 的 抽取 、 原 理 、 部 署 、 分 析 与 编程 。 

大 数据 实时 计算 篇 : 以 Storm. Kafka 为 基础 ， 介 绍 实时 计算 的 架构 、 组 成 、 使 用 与 开发 。 

本 书 非 常 适合 从 事 大 数据 技术 开发 与 使 用 的 初学 者 ， 以 及 从 事 大 数据 技术 研发 的 企 事业 单位 工程 师 学 
习 和 参考 ， 也 适合 高 校 计算 机 相关 专业 的 专科 生 、 本 科 生 和 研究 生 学 习 使 用 。 
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技术 革命 的 浪潮 推动 着 人 类 文明 的 发 展 。 

第 一 次 浪潮 造就 了 农业 革命 ， 它 在 数 千 年 前 出 现 并 持续 了 数 千年 ;第 二 次 浪潮 造就 了 
工业 革命 ， 它 在 数 百年 前 出 现 并 持续 了 数 百 年 ; 我 们 今天 正在 经 历 着 信息 技术 第 三 次 浪潮 ， 
发 端 于 数 十 年 前 ， 目 前 也 只 是 处 在 初级 阶段 。 

农业 技术 革命 释放 了 “ 物 之 力 ”; 工业 技术 革命 释放 了 “能 之 力 ”， 而 今天 的 信息 技 
术 革命 释放 的 是 “智之 力 ”。 

距 今 400 年 前 ， 培 根 在 《伟大 的 复兴 》 中 预言 : 知识 就 是 力量 。 今 天 ， 人 类 终于 迎 来 
“知识 经 济 时 代 ”， 它 是 人 类 社会 经 济 增长 方式 与 经 济 发 展 的 全 新 模式 。 

人 类 认识 物质 世界 、 人 类 社会 和 精神 世界 的 最 高 境界 是 智慧 ， 而 要 达 智 慧 的 境界 ， 必 
然 要 跨越 数据 、 信 息 、 知 识 三 个 层级 。 

数据 作为 基础 ， 是 信息 之 母 、 知 识 之 初 、 智 慧 之 源 。 正 是 今天 的 大 数据 技术 ， 引 燃 了 
人 们 实现 智慧 城市 、 智 慧 医 疗 、 智 慧 教育 等 有 关 人 工 智慧 的 激情 。 人 们 真切 地 认识 到 ， 对 
于 人 工 智 能 ， 只 要 让 数据 发 生 质变 ， 即 使 是 简单 的 数据 ， 也 比 复杂 的 算法 更 有 效 。 

今天 ， 移 动 互联 网 的 发 展 ， 使 我 们 在 获取 数据 上 有 了 质 的 飞跃 ， 人 类 的 各 种 社会 活动 
都 与 互联 网 这 个 虚拟 世界 相 联 系 ， 使 全 样本 、 全 过 程 地 有 效 测量 和 记录 成 为 可 能 ， 构 建 了 
生成 大 数据 生态 的 土壤 ， 同 时 ， 人 们 还 在 期 待 和 慷 慢 物 联网 带 来 更 大 的 冲击 。 

另 一 方面 ， 云 计算 发 展 到 今天 ， 不 论 从 技术 到 产业 都 开始 进入 成 熟 期 ， 这 也 是 大 数据 
发 展 的 基石 和 推进 器 。 

在 今天 这 个 时 代 中 ， 运 用 大 数据 洞 见 事物 蕴藏 的 “智慧 ”成 为 人 们 的 渴望 。 大 数据 更 
新 了 人 们 对 数据 的 认识 。 在 技术 层面 ， 小 数据 时 代 的 很 多 数据 处 理 方法 和 工具 已 不 再 有 效 
需要 一 系列 新 的 方法 和 工具 。 所 幸 ， 有 大 量 平 民 化 的 开源 软件 可 用 ， 它 们 不 需要 特殊 的 硬 
件 系统 ， 也 更 适用 于 云 计算 环境 。 

本 书 正 是 一 本 介绍 主流 的 大 数据 开源 软件 平台 和 工具 的 技术 专著 ， 侧 重 于 大 数据 的 实 
践 性 技术 ， 帮 助 读 者 快速 入 门 ， 通 过 具体 深入 的 实践 ， 体 会 大 数据 的 技术 本 质 特征 ， 领 略 
大 数据 技术 带 来 的 创新 理念 ， 更 好 地 理解 和 把 握 信 息 技术 的 发 展 趋势 。 

本 书 定位 

(1) 信息 发 展 已 步 入 大 数据 时 代 ， 当 前 对 于 大 数据 还 缺乏 面向 公众 的 技术 实践 手册 。 

Q) 本 书 的 创作 团队 有 丰富 的 大 数据 规划 、 开 发 、 运 营 等 经 验 ， 多 位 作者 成 功 地 架构 
了 教育 部 、 科 技 部 、 互 联网 等 大 数据 架构 与 分 析 项 目 。 

(3) 本 书 的 参与 者 均 是 部 委 信息 一 线 工 程 师 、 著 名 外 企 架 构 师 、 国 内 企业 资深 高 级 工 
程 师 ， 所 做 的 理论 分 析 易于 学 习 ， 实 践 具 有 可 操作 性 。 

(4) 本 书 重点 介绍 大 数据 的 基础 理论 、 关 键 技 术 ， 以 及 编程 实践 。 利 用 本 书 ， 就 可 以 
完全 搭建 并 能 有 效 地 管理 好 大 数据 平台 。 
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本 书 特色 
(1) 理念 先进 : 均 是 国内 外 最 新 的 大 数据 理念 ， 方 便 读者 全 面 了 解 国内 外 大 数据 研究 
与 发 展 的 情况 。 


(2) 技术 领先 : 参与 者 均 是 国内 IT 人 士 ; 采用 的 平台 均 是 业界 主流 开源 平台 ， 涉 及 大 
数据 常用 的 HDFS、MapReduce、YARN、Zookeeper、HBase、Hive、Sqoop、Storm、Kafka 
等 技术 的 介绍 与 编程 使 用 。 

(3) 案例 丰富 : 提供 翔实 的 实例 与 解决 方法 ， 供 项 目 中 参考 。 

(4) 资源 齐备 : 本 书 涉及 的 配套 下 载 资源 可 以 从 清华 大 学 出 版 社 的 网 站 中 下 载 。 

全 书 关键 字 

大 数据 、 分 布 式 计算 、 数 据 仓 库 、 数 据 分 析 、HDFS、MapReduce、YARN、Zookeeper、 


HBase、Hive、Sqoop、Storm、Kafka。 
由 于 编者 的 水 平 有 限 ， 书 中 难免 有 玻 漏 和 错误 ， 希 望 业内 专家 和 广大 读者 指正 。 
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本 章 通过 对 大 数据 技术 的 简要 概述 ， 使 读者 了 解 大 数据 的 基本 概念 ， 
以 及 在 分 布 式 环境 下 ， 大 数据 存储 和 处 理 的 基本 原则 ， 掌 握 大 数据 主流 技 
术 分 布 ， 了 解 大 数据 可 能 的 职业 发 展 方向 ， 为 后 续 的 学 习 提供 指引 。 
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1.1 什么 是 大 数据 


有 观点 认为 ， 人 类 过 去 经 历 了 三 次 工业 化 技术 革命 ， 从 茹 汽机 时 代 ， 到 电力 时 代 ， 再 
到 早期 的 计算 机 时 代 ， 每 一 次 革命 都 释放 了 巨大 的 生产 力 ， 开 创 了 工业 的 转型 和 经 济 的 增 
长 时 期 。 人 们 都 说 ， 现 在 人 类 正在 经 历 第 四 次 技术 革命 ， 数 据 就 是 新 的 源 动力 。 

的 确 ， 我 们 已 经 看 到 了 海量 数据 的 爆炸 式 增长 景观 ， 特 别 是 来 自 云 端的 数据 。 云 端 提 
供 了 前 所 未 有 的 计算 能 力 和 数据 存储 能 力 。 这 表明 ， 我 们 已 身 处 “大 数据 ”时 代 。 

但 是 ， 关 于 大 数据 的 确切 定义 ， 目 前 尚未 获得 统一 、 公 认 的 说 法 。 

IBM 用 3V(Volume、Variety、Velocity) 来 描述 大 数据 所 拥有 的 特点 。 

大 容量 (Volume)， 是 指数 据 体 量 巨大 。 

多 形式 (Variety)， 是 从 数据 的 类 型 角度 来 看 的 ， 数 据 的 存在 形式 从 过 去 的 以 结构 化 数据 
为 主 转换 为 形式 多 种 多 样 ， 既 包含 传统 的 结构 化 数据 ， 也 包含 可 便于 搜索 的 半 结 构 化 数据 ， 
如 文本 数据 ， 还 包含 更 多 的 非 结构 化 数据 ， 如 图 片 、 音 频 和 视频 数据 。 

高 速率 (Velocity) 则 是 从 数据 产生 效率 的 实时 性 角度 来 衡量 的 ， 数 据 以 非常 高 的 速率 产 
生 ， 比 如 大 量 传感器 生成 的 实时 数据 。 

之 后 ， IBM 又 在 3V 的 基础 上 , 增加 了 Value 这 个 维度 ， 即 价值 密度 低 的 数据 称 为 大 数 
据 ， 意 指 大 数据 伴随 着 从 低 价 值 的 原始 数据 中 进行 深度 挖掘 和 计算 ， 从 海量 且 形 式 各 异 的 
数据 源 中 抽取 出 富 含 价值 的 信息 。 

由 此 可 以 看 出 ， 从 具备 4V 特性 的 大 量 数 据 中 挖掘 高 价值 知识 ， 是 各 界 对 于 大 数据 的 一 
个 共识 。 

由 于 数据 量 的 爆炸 式 增长 ， 传 统 的 数据 管理 模式 及 工具 已 不 能 高 效 地 存储 和 处 理 如 此 
规模 的 数据 。 新 时 代 呼 唤 新 思维 、 新 技术 。 从 维 克 多 。 迈 尔 。 舍 恩 伯 格 所 著 的 《大 数据 时 
代 》 中 ， 可 以 看 到 大 数据 时 代 的 思维 变革 。 

(1) 不 是 随机 样本 ， 而 是 全 体 数据 。 

统计 学 家 们 证 明 : 采样 分 析 的 精确 性 随 着 采样 随机 性 的 增加 而 大 幅 提高 ， 但 与 样本 数 
量 的 增加 关系 不 大 。 随 机 采样 取得 了 巨大 的 成 功 ， 成 为 现代 社会 、 现 代 测 量 领 域 的 主心骨 。 
但 这 只 是 一 条 捷径 ， 是 在 不 可 收集 和 分 析 全 部 数据 的 情况 下 的 选择 ， 它 本 身 存 在 许多 固有 
的 缺陷 。 大 数据 是 指 不 用 随机 分 析 法 这 样 的 捷径 ， 而 采用 所 有 数据 的 方法 。 

(2) 不 是 精确 性 ， 而 是 混杂 性 。 

数据 多 比 少 好 ， 更 多 数据 比 算法 系统 更 智能 还 要 重要 。 社 会 从 “大 数据 ”中 所 能 得 到 
的 益处 ， 并 非 来 自 运行 更 快 的 芯片 或 更 好 的 算法 ， 而 是 来 自 更 多 的 数据 。 大 数据 的 简单 算 
法 比 小 数据 的 复杂 算法 更 有 效 。 大 数据 不 仅 让 我 们 不 再 期 待 精确 性 ， 也 让 我 们 无 法 实现 精 
确 性 。 那 些 精确 的 系统 试图 让 我 们 接受 一 个 贫乏 而 规整 的 惨 象 一 一 假装 世间 万 物 都 是 整齐 
地 排列 的 。 而 事实 上 ， 现 实 是 纷繁 复杂 的 ， 天 地 间 存 在 的 事物 也 远 远 多 于 系统 所 设想 的 。 
要 想 获得 大 规模 数据 带 来 的 好 处 ， 混 乱 应 该 是 一 种 标准 途径 ， 而 不 应 该 是 竭力 避免 的 。 

(3) 不 是 因果 关系 ， 而 是 相关 关系 。 

在 大 数据 时 代 ， 我 们 不 必 非 得 知道 现象 背后 的 原因 ， 而 是 要 让 数据 自己 “发 声 ”。 通 
过 给 我 们 找到 一 个 现象 的 良好 关联 物 ， 相 关 关 系 可 以 帮助 我 们 捕捉 现在 和 预测 未 来 。 

















在 小 数据 世界 中 ， 相 关 关 系 也 是 有 用 的 ， 但 在 大 数据 的 背景 下 ， 相 关 关系 大 放 异 彩 。 
通过 应 用 相关 关系 ， 我 们 可 以 比 以 前 更 容易 、 更 快捷 、 更 清楚 地 分 析 事物 。 

大 数据 的 相关 关系 分 析 法 更 准确 、 更 快 ， 而 且 不 易 受 偏见 的 影响 。 建 立 在 相关 关系 分 
析 法 基础 上 的 预测 是 大 数据 的 核心 。 


1.2 大 数据 的 技术 转型 


直至 今天 ， 我们 无 论 是 使 用 ATM 机 取款 、 预 订 航 班机 票 ， 还 是 查询 交通 违章 信息 ， 都 
离 不 开关 系数 据 库 ， 都 依托 于 背后 的 关系 数据 库 的 数据 事务 处 理 。 在 事务 处 理 上 ， 关 系 模 
型 无 处 不 在 。 关 系数 据 库 模 型 成 功 的 关键 之 处 ， 在 于 该 模型 的 标准 化 。 每 个 数据 单元 在 一 
个 表 中 只 会 出 现 一 次 ， 这 不 但 减少 了 元 余 的 存储 成 本 ， 而 且 还 使 得 数据 修改 只 发 生 在 一 个 
位 置 ， 数 据 的 一 致 性 得 以 保持 。 表 中 的 某 一 列 可 被 指定 为 主键 ， 主 键 是 一 个 保证 无 二 义 性 
地 检索 单条 记录 的 属性 值 ， 还 可 以 在 查询 语法 中 使 用 主键 来 连接 这 些 关系 。 关 系数 据 库 还 
创造 出 了 结构 化 查询 语言 (Structured Query Language，SQL) 来 表达 关系 查询 。 关 系 型 数据 库 
为 存储 和 查询 数据 提供 了 非常 灵活 的 模型 。 

关系 数据 库 模 型 的 另 一 个 重要 概念 是 事务 。 事 务 管理 器 (或 者 一 个 事务 处 理 服务 ) 在 一 个 
工作 单元 中 维护 数据 的 完整 性 。 一 组 操作 被 当 作 一 个 工作 单元 (unib, 在 一 个 工作 单元 中 ， 操 
作 的 所 有 部 分 一 起 成 功 ， 或 失败 并 恢复 。 

凡 符 合 关系 模型 的 数据 库 ， 在 事务 处 理 上 需要 满足 被 称 为 ACID 的 特性 。 

€ 原子 性 (Atomicity): 一 个 事务 要 被 完全 地 、 无 二 义 性 地 做 完 或 撤销 。 在 任何 操作 出 

现 一 个 错误 的 情况 下 ， 构 成 事务 的 所 有 操作 的 效果 必须 被 撤销 ， 数 据 应 被 回 滚 到 
事务 开始 前 的 状态 。 
€ 一致 性 (Consistency): 一 个 事务 应 该 保护 所 有 定义 在 数据 上 的 不 变 的 属性 (例如 完整 
性 约束 )。 在 完成 了 一 个 成 功 的 事务 时 ， 数 据 应 处 于 一 致 的 状态 。 一 个 一 致 的 事务 
将 保护 定义 在 数据 上 的 所 有 完整 性 约束 。 

e 隔离 性 (Isolation): 在 同一 个 环境 中 ， 可 能 有 多 个 事务 并 发 执行 ， 而 每 个 事务 都 应 
表现 为 独立 执行 。 串 行 地 执行 一 系列 事务 的 效果 应 该 等 同 于 并 发 地 执行 它们 。 在 
一 个 事务 执行 的 过 程 中 ， 数 据 的 中 间 状 态 不 应 该 被 暴露 给 所 有 的 其 他 事务 ;两 个 
并 发 的 事务 应 该 不 能 操作 同一 项 数据 。 

€ 持久 性 (Durability): 一 个 被 完成 的 事务 的 效果 应 该 是 持久 的 。 只 要 事务 成 功 结束 ， 
它 对 数据 库 所 做 的 更 新 就 必须 永久 保存 下 来 。 即 使 发 生 系 统 崩 溃 ， 重 新 启动 数据 
库 系 统 后 ， 数 据 库 还 能 恢复 到 事务 成 功 结束 时 的 状态 。 

关系 数据 库 有 两 个 强制 性 要 求 : 对 数据 要 预先 理解 ， 在 进行 插入 操作 之 前 ， 必 须 先 定 
义 好 模式 和 关系 ; 在 写 入 操作 发 生 后 ， 保 持 数据 的 一 致 性 。 

可 扩展 性 是 这 种 计算 模式 的 一 大 缺陷 。 当 数据 容量 更 大 、 并 发 处 理性 能 需求 更 高 时 ， 
唯 有 提高 服务 器 性 能 指标 和 可 靠 性 ， 这 是 典型 的 向 上 扩展 模式 (Scale Up)。 即 使 可 采用 并 行 
数据 库 集群 ， 最 多 也 只 能 管理 有 限 数 量 的 服务 器 ， 而 且 这 种 并 行 数据 库 也 同样 要 求 高 配置 
的 服务 器 才 可 以 运转 ， 其 成 本 之 高 可 以 想象 。 
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随 着 信息 技术 的 进步 ， 相 比较 而 言 ， 软 件 的 重要 性 将 下 降 ， 数 据 的 重要 性 将 上 升 。 人 
类 处 理 、 传 输 和 保存 数据 的 能 力 不 断 增强 。 

20 多 年 来 ，CPU 的 性 能 提高 了 3500 倍 ; 内 存 和 磁盘 的 价格 下 降 到 了 原来 的 450 万 分 
之 一 和 360 万 分 之 一 ， 主干 网 络 带 宽 每 6 个 月 增加 1 倍 ， 而 每 比特 费用 将 趋 于 零 。 

另 一 方面 ， 人 类 生产 数据 的 能 力也 在 增强 ， 数 据 正在 发 生 井喷 式 的 增长 。 这 与 互联 网 、 
移动 互联 网 、 社 交 网 络 以 及 未 来 物 联网 大 潮 的 高 速 发 展 直 接 相 关 。 特 别 是 智能 手机 等 手持 
设备 和 社交 网 络 的 广泛 使 用 ， 使 得 越 来 越 多 的 人 能 够 将 可 支配 时 间 投 入 到 各 种 应 用 中 ， 而 
未 来 物 联网 的 发 展 ， 任 意 物品 和 设施 都 有 可 能 24 小 时 不 间断 地 产生 状态 数据 。 

让 我 们 看 一 看 当今 互联 网 应 用 场景 : Facebook 管理 了 超过 400 亿 张 图 片 ， 所 需 存储 空 
间 超 过 100PB， 每 天 发 布 的 新 消息 超过 60 亿 条 ， 所 需 的 存储 空间 超过 10TB; Twitter 一 天 
产生 1.9 亿 条 微 博 ; 搜索 引擎 一 天 产生 的 日 志高 达 35TB. Google 一 天 处 理 的 数据 量 超过 
25PB; YouTube 一 天 上 传 的 视频 总 时 长 为 $ 万 小 时 ……。 

数据 量 的 衡量 单位 ， 从 小 到 大 依次 为 KB、MB、GB、TB、PB、EB 和 ZB， 相 互 之 间 
的 转换 公式 为 1024KB=1MB; 1024MB-1GB; 1024GB-1TB; 1024TB-1PB; 1024PB-IEB; 
1024EB-1ZB. 我 们 曾经 经 历 过 MB 存储 时 代 、GB 存储 时 代 ， 随 着 IT 技术 的 快速 发 展 ， 我 
AEAT TB 时 代 ， 而 现在 正 向 PB、EB 时 代 迁 移 。 

尽管 随 着 时 间 的 推移 ， 商 用 计算 机 硬件 变 得 越 来 越 便宜 ， 但 是 ， 从 历史 和 经 济 的 角度 
来 看 ， 持 续 不 断 地 升级 到 更 高 配置 的 服务 器 硬件 是 不 可 行 的 。 花 费 数 倍 的 价钱 升级 一 个 大 
型 机 器 ， 可 能 无 法 提供 同样 倍数 的 性 能 。 相 比 之 下 ， 人 性 能 一 般 的 小 型 服务 器 仍然 很 便宜 。 
一 般 情 况 下 ， 从 经 济 的 角度 来 看 ， 水 平 扩展 更 有 意义 。 换 名 话说， 应 该 简单 地 为 系统 增加 
更 多 便宜 的 机 器 ， 而 不 是 试图 将 一 个 关系 型 数据 库 放 到 一 台 昂 贵 的 大 型 服务 器 上 。 

以 关系 数据 库 技术 ， 不 可 能 支撑 今天 大 数据 的 应 用 场景 。 

对 于 很 多 应 用 场景 ， 尤 其 是 互联 网 相关 应 用 来 说 ， 并 不 像 银 行业 务 等 对 数据 的 一 致 性 
有 很 高 的 要 求 ， 而 更 看 重 数据 的 高 可 用 性 以 及 架构 的 可 扩展 性 等 技术 因素 。 因 此 ，NoSQL 
数据 库 应 运 而 生 ， 作 为 适应 不 同 应 用 场景 要 求 的 新 型 数据 存储 与 处 理 架 构 ， 它 与 传统 数据 
库 有 很 强 的 互补 作用 ， 而 且 应 用 场景 更 加 广泛 。 例 如 ，Yahoo 公司 通过 部 署 包含 4000 台 普 
通 服务 器 的 Hadoop 集群 , 可 以 存储 和 处 理 高 达 4PB 的 数据 , 整个 分 布 式 架构 具有 非常 强 的 
可 扩展 性 。NoSQL 数据 库 的 广泛 使 用 ， 代 表 了 一 种 技术 范 型 的 转换 。 
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在 大 数据 环境 下 ， 数 据 量 已 经 由 GB 级 别 跨越 到 PB 级 别 ， 依 靠 单 台 计算 机 已 经 无 法 存 
储 与 处 理 如 此 规模 的 数据 ， 唯 一 的 出 路 ， 是 采用 大 规模 集群 来 对 这 些 数据 进行 存储 和 处 理 ， 
所 以 ， 系 统 的 可 扩展 性 成 为 衡量 系统 优 劣 的 关键 因素 。 

传统 关系 数据 库 系统 为 了 支持 更 多 的 数据 ， 采 用 纵向 扩展 (Scale Up) 的 方式 ， 即 不 增加 
机 器 数量 ， 而 是 通过 改善 单机 硬件 资源 配置 ， 来 解决 问题 。 如 今 这 种 方式 已 经 行 不 通 了 。 

目前 主流 的 大 数据 存储 与 计算 系统 通常 采用 横向 扩展 (Scale Oub 的 方式 支持 系统 可 扩 
展 性 ， 即 通过 增加 机 器 数目 来 获得 水 平 扩展 能 力 。 与 此 对 应 ， 对 于 待 存储 处 理 的 海量 数据 ， 
需要 通过 数据 分 片 (Shard/Partition) 来 对 数据 进行 切 分 并 分 配 到 各 个 机 器 中 去 , 通过 数据 分 片 








实现 系统 的 水 平 扩展 。 

目前 ， 大 规模 存储 与 计算 系统 都 是 采用 普通 商用 服务 器 来 作为 硬件 资源 池 的 ， 系 统 故 
障 被 认为 是 常态 。 因 此 ， 与 数据 分 片 密切 相关 的 是 数据 复制 ， 通 过 数据 复制 来 保证 数据 的 
高 可 用 性 。 数 据 复制 是 将 同一 份 数 据 复制 存储 在 多 台 计 算 机 中 ， 以 保证 数据 在 故障 常 发 环 
境 下 仍然 可 用 。 从 数据 复制 还 可 以 获得 另 一 个 好 处 ， 即 可 以 增加 读 操 作 的 效率 ， 客 户 端 可 
以 从 多 个 备份 数据 中 选择 物理 距离 较 近 的 进行 读 取 ， 既 增加 了 读 操 作 的 并 发 性 ， 又 可 以 提 
高 单 次 的 读 取 效 率 。 

数据 复制 带 来 的 难题 是 如 何 保证 数据 的 一 致 性 。 由 于 每 份 数 据 存 在 多 个 副本 ， 在 并 发 
地 对 数据 进行 更 新 时 ， 如 何 保证 数据 的 一 致 性 就 成 为 关键 问题 。 

可 以 将 数据 分 片 的 通用 模型 看 作 是 一 个 二 级 映射 关系 。 第 一 级 映射 是 key-partition 映射 ， 
即 把 数据 记录 映射 到 数据 分 片 空间 ， 通 常 ， 一 个 数据 分 片 包含 多 条 记录 数据 ， 第 二 级 映射 
是 partition-machine 映射 ， 把 数据 分 片 映射 到 物理 机 器 中 ， 即 一 台 物 理 机 器 通常 可 以 容纳 多 
个 数据 分 片 。 

在 做 数据 分 片 时 ， 根 据 key-partition 关系 ， 将 数据 水 平 切割 成 众多 数据 分 片 ， 然 后 再 按 
照 partition-machine 映射 关系 ， 将 数据 分 片 存储 到 对 应 的 物理 机 器 上 。 而 在 做 数据 访问 时 ， 
比如 要 查找 某 条 记录 的 值 Get(key)， 首 先 根 据 key-partition 映射 找到 对 应 的 数据 分 片 ， 然 后 
再 查找 partition-machine 关系 表 ， 就 可 以 找到 哪 台 物 理 机 器 存储 该 条 数据 ， 之 后 ， 即 可 从 相 
应 的 物理 机 器 读 取 key 对 应 的 value 内 容 了 。 

数据 分 片 有 两 种 常用 策略 : 哈 希 分 片 与 范围 分 片 。 对 于 哈 希 分 片 来 说 ， 因 为 其 主要 通 
过 哈 希 函数 来 建立 key-partition 映射 关系 , 因此 , 哈 希 分 片 只 支持 “ 单 点 查询 ”(Point Query), 
即 根据 某 个 记录 的 主键 (key) 获 得 记录 内 容 ， 而 无 法 支持 “范围 查询 ”(Range Query)， 即 指 
定 记录 的 主键 范围 ， 一 次 读 取 多 条 满足 条 件 的 记录 。 采 取 哈 希 分 片 的 实际 系统 众多 ， 大 多 
数 KV(key-value， 键 值 ) 存 储 系统 都 支持 这 种 方式 。 

与 此 相对 应 地 ， 范 围 分 片 的 系统 则 既 可 以 支持 单 点 查询 ， 也 可 以 支持 范围 查询 。 范 围 
分 片 首先 对 所 有 记录 的 主键 进行 排序 ， 然 后 在 排 好 序 的 主键 空间 里 将 记录 划分 成 数据 分 片 ， 
每 个 数据 分 片 存储 有 序 的 主键 空间 片段 内 的 所 有 记录 。 


14 数据 一 致 性 


在 大 数据 系统 中 ， 为 了 获得 系统 可 用 性 ， 需 要 为 同一 数据 分 片 存储 多 份 副本 ， 业 界 的 
常规 做 法 是 一 个 数据 分 片 同 时 保存 三 个 副本 。 将 数据 复制 成 多 份 除了 能 增加 存储 系统 的 可 
用 性 ， 同 时 还 能 增加 读 操作 的 并 发 性 ， 但 引发 了 数据 一 致 性 问题 ， 即 同一 数据 分 片 存在 多 
个 副本 。 在 并 发 的 写 请 求 下 ， 如 何 保持 数据 一 致 性 尤为 重要 ， 即 在 存储 系统 外 部 的 使 用 者 
看 来 ， 即 使 存在 多 个 副本 数据 ， 它 与 单 份 数据 也 应 该 是 一 样 的 。 

CAP、BASE、ACID 等 基本 原则 是 分 布 式 环境 下 数据 一 致 性 方案 设计 重要 的 指导 原则 。 


14.1 CAP 原则 


CAP 是 对 Consistency/Availability/Partition Tolerance 的 一 种 简称 , CAP 原则 对 分 布 式 系 
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统 中 的 三 个 特性 进行 了 如 下 归纳 。 
€ ”一 致 性 (Consistency): 在 分 布 式 系统 中 的 所 有 数据 备份 ， 在 同一 时 刻 是 否 具 有 同样 
的 值 (等 同 于 所 有 节点 访问 同一 份 最 新 的 数据 副本 )。 
© ”可 用 性 (Availability): 在 集群 中 ， 一 部 分 节点 出 现 故 障 后 ， 集 群 整体 是 否 还 能 响应 
客户 端的 读 写 请 求 (对 数据 更 新 具备 高 可 用 性 )。 
e 分 区 容错 性 (Partition Tolerance): 从 实际 效果 而 言 , 分 区 相当 于 对 通信 的 时 限 要 求 。 
系统 如 果 不 能 在 时 限 内 达成 数据 一 致 性 ， 就 意味 着 发 生 了 分 区 的 情况 ， 必 须 就 当 
前 操作 在 C 和 A 之 间 做 出 选择 。 
CAP 原则 是 指 对 于 一 个 大 规模 分 布 式 数据 系统 来 说 ，CAP 三 个 特性 不 可 兼 得 ， 同 一 个 
系统 至 多 只 能 实现 其 中 的 两 个 ， 而 必须 放宽 第 三 个 要 素来 保证 其 他 两 个 要 素 被 满足 。 即 要 
4 AP， 要 么 CP， 抑 或 AC， 但 是 不 存在 CAP， 如 图 1-1 所 示 。 





Consistency Availability 


Partition 
Tolerance 


1-1 CAP 原则 示意 


我 们 可 以 认为 ， 在 网 络 环境 下 ， 运 行 环境 出 现 网 络 分 区 是 不 可 避免 的 ， 所 以 系统 必须 
具备 分 区 容忍 性 特性 ， 于 是 ， 一 般 在 此 种 场景 下 ， 设 计 大 规模 分 布 式 系统 时 ， 架 构 师 往往 
在 AP 和 CP 中 进行 权衡 和 选择 ， 有 所 强调 、 有 所 放弃 。 

在 一 个 分 布 式 系统 中 ， 如 果 数 据 无 副本 ， 那 么 系统 首先 就 满足 强 一 致 性 条 件 ， 单 一 副 
本 数据 ， 不 可 能 发 生 数据 不 一 致 的 情况 。 此 时 ， 系 统 具 备 C， 如 果 我 们 容忍 分 区 容错 性 P， 
意味 着 系统 可 能 发 生 网 络 分 区 状况 ， 如 有 宕 机 现象 出 现时 ， 就 必然 导致 某 些 数据 不 可 访问 ， 
此 时 ， 可 用 性 A 是 不 能 被 满足 的 ， 即 在 此 情形 下 获得 了 CP 特性 ， 但 CAP 不 可 同时 满足 。 

如 果 系 统 中 数据 有 副本 ,假设 一 份 数据 有 分 别 存储 在 不 同 机 器 上 的 两 个 副本 ， 最 初 数 
据 是 保持 一 致 的 ， 某 一 时 刻 ， 机 器 1 上 对 这 个 数据 进行 了 更 新 操作 ， 这 个 更 新 操作 随后 会 
同步 到 机 器 2 上 ， 使 两 个 副本 保持 一 致 性 。 但 网 络 分 区 是 不 可 忽视 的 ， 可 以 设想 ， 在 数据 
复制 同步 未 完成 的 情况 下 ， 发 生 了 网 络 分 区 ， 导 致 两 台 机 器 无 法 通信 ， 这 时 ， 我 们 就 不 得 
不 在 C 或 A 之 间 做 权衡 和 选择 。 如 果 希 望 系统 可 用 性 优先 (选择 A)， 那 么 对 于 读 取 机 器 2 
上 的 数据 查询 请 求 返回 的 并 非 是 最 新 的 数据 ， 此 种 选择 就 放弃 一 致 性 (C)， 产 生 数 据 不 一 至 
情况 。 如 果 选 择 一 致 性 优先 (选择 C)， 那 么 ， 在 两 台 机 器 恢复 通信 并 将 数据 同步 到 一 致 状态 





前 ， 对 于 机 器 2 就 要 拒绝 对 数据 的 读 请 求 ， 此 时 ， 可 用 性 无 法 保证 (放弃 A)。 所 以 不 论 选择 
哪 一 个 , 必然 以 牺牲 另外 一 个 因素 作为 代价 , 也 就 是 说 , 要 么 AP, SEA CP, 但 不 会 有 CAP. 

对 于 分 布 式 系统 来 说 ， 分 区 容错 性 是 天 然 具 备 的 ， 所 以 在 设计 具体 分 布 式 架构 技术 方 
案 时 ， 只 能 对 一 致 性 和 可 用 性 两 个 特性 做 出 取舍 ， 要 么 选择 强 一 致 性 ， 减 弱 服 务 可 用 性 ， 
要 么 选择 高 可 用 性 而 容忍 弱 一 致 性 。 

我 们 可 以 回顾 一 下 传统 关系 数据 库 的 ACID 特性 ， 在 CAP 三 要 素 中 ， 传 统 关 系数 据 库 

选择 CA 两 个 特性 ， 即 强 一 致 性 、 高 可 用 性 ,与 分 区 容错 性 这 个 天 然 要 素 不 可 调和 ， 这 是 造 
成 其 在 分 布 式 环境 下 可 扩展 性 差 的 根本 原因 。 而 NoSQL 系统 则 更 关注 AP 因素 ， 即 高 可 用 
性 和 分 区 容错 性 ， 也 意味 着 兼顾 高 可 用 性 和 高 可 扩展 性 ， 而 牺牲 强 一 致 性 。 对 于 绝 大 多 数 
互联 网 应 用 来 说 ， 高 可 用 性 直接 涉及 用 户 体验 ， 而 对 数据 一 致 性 要 求 并 不 高 ，NoSQL 系统 
这 类 以 弱 一 致 性 作为 代价 的 系统 ， 正 是 适应 了 这 一 现实 需求 。 
网 络 分 区 (P) 虽 然 是 个 天 然 属 性 ， 但 在 现代 的 实际 系统 中 ， 依 然 是 个 小 概率 事件 。 以 此 
为 出 发 点 , 我 们 并 不 应 该 为 了 容忍 这 种 小 概率 事件 而 在 设计 之 初 就 选择 放弃 A 或 者 放弃 C, 
在 大 多 数 没有 出 现 网 络 分 区 的 状况 下 , 还 是 可 以 尽 可 能 兼顾 AC 两 者 , 即 有 条 件 地 兼顾 CAP 
三 要 素 。 

另 一 个 需要 说 明 的 是 , 即使 必须 在 AC 之 间 做 出 取舍 , 也 不 应 该 是 粗 粒 度 地 在 整个 系统 
级 别 进行 取舍 ， 即 整个 系统 要 么 取 A 舍 C， 要 么 取 C 舍 A， 而 是 应 该 考虑 系统 中 存在 不 同 
的 子 系统 ， 甚 至 应 该 在 不 同 的 系统 运行 时 或 者 在 不 同 的 数据 间 进 行 灵活 的 差异 化 的 细 粒 度 
取舍 ， 即 可 能 对 不 同 子 系统 采取 不 同 的 取舍 策略 ， 在 不 同 的 系统 运行 时 ， 对 不 同 数据 采取 
不 同 的 取舍 策略 。 因 此 ，CAP 三 者 并 非 是 绝对 的 两 要 素 有 或 没有 ， 可 以 看 作 是 在 一 定 程度 
上 的 有 或 没有 ， 考 虑 的 是 在 多 大 程度 上 进行 取 使 。 

由 此 可 以 看 出 ，CAP 的 修改 策略 是 可 取 的 。 在 绝 大 多 数 系统 未 产生 网 络 分 区 的 情形 下 ， 
应 该 尽 可 能 保证 AC 两 者 兼 得 ， 也 即 大 多 数 情况 下 ， 考 虑 CAP 三 者 兼 得 ， 当 发 生 网 络 分 区 
时 ， 系 统 应 该 能 够 识别 这 种 状况 并 对 其 进行 正确 处 理 ， 在 网 络 分 区 场景 下 进入 明确 的 分 区 
模式 ， 此 时 ， 可 能 会 限制 某 些 系统 操作 ， 最 后 ， 在 网 络 分 区 解决 后 ， 能 够 进行 善后 处 理 ， 
即 恢复 数据 的 一 致 性 ， 或 者 弥补 分 区 模式 中 产生 的 错误 。 


1.4.2 CAP 5 ACID 


谈 到 CAP 与 ACID 之 间 存 在 的 关系 , 首先 因为 CAP 和 ACID 两 者 都 包含 了 A 和 C, fH 
是 其 具体 含义 有 所 不 同 ; 其 次 ， 如 果 CAP 中 选择 A 的 话 ， 在 一 定 程度 上 ， 会 影响 ACID 中 
的 部 分 要 求 。 

CAP 与 ACID 两 者 中 尽管 都 包含 一 致 性 ， 但 是 ， 两 者 的 含义 不 同 ，ACID 中 的 C 指 的 
是 对 操作 的 一 致 性 约束 ， 而 CAP 中 的 C 指 的 是 数据 的 强 一 致 性 (多 副本 对 外 表现 类 似 于 单 
副本 )， 所 以 ， 可 以 将 CAP 中 的 C 看 作 一 致 性 约束 的 一 种 ， 即 CAP 中 的 C 是 ACID 中 的 C 
所 涵盖 语义 的 子 集 。 在 出 现 网 络 分 区 的 情形 下 , ACID 中 的 C 所 要 求 的 一 致 性 约束 是 无 法 保 
证 的 ， 所 以 ， 在 网 络 分 区 解决 后 ， 需 要 通过 一 定 手段 来 恢复 ACID 中 要 求 的 一 致 性 。 

当 出 现 网 络 分 区 时 ，ACID 中 的 事务 独立 只 能 在 多 个 分 区 中 的 某 个 分 区 执行 ， 因 为 事务 
的 序列 化 要 求 通信 ， 而 当 网 络 分 区 时 ， 明 显 无 法 做 到 这 点 ， 所 以 只 能 在 某 个 分 区 执行 。 如 
果 多 个 分 区 都 可 以 各 自 进行 ACID 中 的 数据 持久 化 (D) 操 作 ， 当 网 络 分 区 解决 后 ， 如 果 每 个 
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分 区 都 提供 持久 化 记录 ， 则 系统 可 以 根据 这 些 记录 发 现 违 反 ACID 一 致 性 约束 的 内 容 ， 并 
给 予 修正 。 


1.4.3 ”BASE 原则 


关系 数据 库 系 统 采纳 ACID 原则 ， 获 得 高 可 靠 性 和 强 一 致 性 。 而 大 多 数 分 布 式 环境 下 
的 云 存 储 系统 和 NoSQL 系统 则 采纳 BASE 原则 。BASE 原则 具体 是 指 如 下 几 项 。 
e 基本 可 用 (Basically Available): 在 绝 大 多 数 时 间 内 ， 系 统 处 于 可 用 状态 ， 人 允许 偶尔 
的 失效 ， 所 以 称 为 基本 可 用 。 
e /— 软 状态 或 者 柔性 状态 (Soft State): 是 指数 据 状态 不 要 求 在 任意 时 刻 都 完全 保持 同 
步 ， 可 以 理解 为 系统 处 于 有 状态 (State) 和 无 状态 (Stateless) 之 间 的 中 间 状 态 。 
© ”最终 一 致 性 (Eventual Consistency): 与 强 一 致 性 相 比 , 最 终 一 致 性 是 一 种 弱 一 致 性 ， 
尽管 软 状态 不 要 求 任意 时 刻 数据 保持 一 致 同步 ， 但 是 ， 在 给 定时 间 窗 口内 ， 最 终 
会 达到 一 致 的 状态 。 
BASE 原则 与 ACID 原则 有 很 大 的 差异 。BASE 通过 牺牲 强 一 致 性 来 获得 高 可 用 性 。 尽 
管 现在 大 多 数 的 NoSQL 系统 采纳 了 BASE 原则 ， 但 是 有 一 点 值得 注意 : NoSQL 系统 与 云 
存储 系统 的 发 展 过 程 正在 向 逐步 提供 局 部 ACID 特性 发 展 ， 即 从 全 局 而 言 ， 符 合 BASE 原 
则 ， 但 局 部 上 支持 ACID 原则 ， 这 样 ， 就 可 以 吸取 两 者 各 自 的 好 处 ， 在 两 者 之 间 建 立 平衡 。 
ACID 强调 数据 的 一 致 性 ， 这 是 传统 数据 库 设 计 的 思路 。 而 BASE 更 强调 可 用 性 ， 弱 化 
数据 强 一 致 性 的 概念 ， 这 是 互联 网 时 代 对 于 大 规模 分 布 式 数据 系统 的 一 种 需求 ， 尤 其 是 其 
中 的 软 状态 和 最 终 一 致 性 。 可 以 说 ，ACID 和 BASE 原则 是 在 明确 提出 CAP 理论 之 前 关于 
如 何 对 待 可 用 性 和 强 一 致 性 的 两 种 完全 不 同 的 设计 思路 。 


1.5 主流 大 数据 技术 


目前 ， 主 流 的 开源 大 数据 技术 的 基础 原理 皆 基 于 上 述 基本 理论 。 主 流 的 大 数据 技术 可 
以 分 为 两 大 类 。 

一 类 面向 非 实 时 批 处 理 业 务 场 景 ， 着 重用 于 处 理 传统 数据 处 理 技术 在 有 限 的 时 空 环 境 
里 无 法 胜任 的 TB 级 、PB 级 海量 数据 存储 、 加 工 、 分 析 、 应 用 等 。 一 些 典 型 的 业务 场景 如 : 
用 户 行为 分 析 、 订 单 防 欢 诈 分 析 、 用 户 流失 分 析 、 数 据 仓库 等 ， 这 类 业务 场景 的 特点 ， 是 
非 实 时 响应 ， 通 常 ， 一 些 单位 在 晚上 交易 结束 时 ， 抽 取 各 类 数据 进入 大 数据 分 析 平 台 ， 在 
数 小 时 内 获得 计算 结果 , 并 用 于 第 二 天 的 业务 。 比 较 主 流 的 支撑 技术 为 HDFS、MapReduce、 
Hive 等 。 

另 一 类 面向 实时 处 理 业 务 场景 ， 如 微 博 应 用 、 实 时 社交 、 实 时 订单 处 理 等 ， 这 类 业务 
场景 ， 特 点 是 强 实时 响应 ， 用 户 发 出 一 条 业务 请 求 ， 在 数秒 钟 之 内 要 给 予 响应 ， 并 且 确 保 
数据 完整 性 。 比 较 主流 的 支撑 技术 为 HBase、Kafka、Storm 等 。 

这 里 先 简要 介绍 这 些 技术 的 特点 ， 针 对 这 些 技术 的 详细 使 用 ， 在 本 书后 面 会 安排 。 

(1 HDFS. 

HDFS 是 Hadoop 的 核心 子 项 目 ， 是 整个 Hadoop 平台 数据 存储 与 访问 的 基础 ， 在 此 之 
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上 ， 承 载 其 他 如 MapReduce、HBase 等 子 项 目的 运转 。 它 是 易于 使 用 和 管理 的 分 布 式 文件 
系统 。 

HDFS 是 一 个 高 度 容 错 性 的 系统 ， 适 合 部 署 在 廉价 的 机 器 上 。HDFS 能 提供 高 吞吐 量 的 
数据 访问 ， 非 常 适合 大 规模 数据 集 上 的 应 用 。HDFS 放宽 了 一 部 分 POSIX 约束 ， 来 实现 流 
式 读 取 文 件 系 统 数 据 的 目的 。 

(2) MapReduce。 

MapReduce 是 一 个 软件 架构 ， 在 数 以 千 计 的 普通 硬件 构成 的 集群 中 以 平行 计算 的 方式 
处 理 海量 数据 ， 该 计算 框架 具有 很 高 的 稳定 性 和 容错 能 力 。MapReduce 对 负责 逻辑 进行 高 
度 归 约 ， 抽象 为 Mapper 和 Reducer 类 ,复杂 逻辑 通过 理解 ， 转 化 为 符合 MapReduce 函数 处 
理 的 模式 。 

MapReduce job 会 划分 输入 数据 集 为 独立 的 计算 块 ， 这 些 分 块 被 map 任务 以 完全 并 行 、 
独立 的 模式 处 理 。MapReduce 框架 对 maps 的 输出 进行 排序 ,排序 后 ， 数 据 作 为 reduce 任务 
的 输入 数据 。job 的 input 和 output 数据 都 存储 在 HDFS 文件 系统 中 。 计 算 框架 管理 作业 调 
度 、 监 控 作 业 、 重 新 执行 失败 任务 。 

G) YARN。 

Apache Hadoop YARN(Yet Another Resource Negotiator， 另 一 种 资源 协调 者 ) 是 从 
Hadoop 0.23 进化 来 的 一 种 新 的 资源 管理 和 应 用 调度 框架 。 基 于 YARN， 可 以 运行 多 种 类 型 
的 应 用 程序 ， 例 如 MapReduce. Spark. Storm 等 。YARN 不 再 具体 管理 应 用 ， 资 源 管理 和 
应 用 管理 是 两 个 低 耦 合 的 模块 。 

YARN 从 某 种 意义 上 来 说 ， 是 一 个 云 操作 系统 (Cloud OS)。 基 于 该 操作 系统 之 上 ， 程 序 
员 可 以 开发 多 种 应 用 程序 , 例如 批 处 理 MapReduce 程序 、Spark 程序 以 及 流 式 作 业 Storm 程 
序 等 。 这 些 应 用 ， 可 以 同时 利用 Hadoop 集群 的 数据 资源 和 计算 资源 。 

(4) HBase。 

HBase 是 Hadoop 平台 中 重要 的 非 关 系 型 数据 库 , 它 通 过 线性 可 扩展 部 署 , 可 以 支撑 PB 
级 数据 存储 与 处 理 能 力 。 

作为 非 关 系 型 数据 库 ，HBase 适合 于 非 结构 化 数据 存储 ， 它 的 存储 模式 是 基于 列 的 。 

(5) Hive. 

Hive 是 Apache 基金 会 下 面 的 开源 框架 ， 是 基于 Hadoop 的 数据 仓库 工具 ， 它 可 以 把 结 
构 化 的 数据 文件 映射 为 一 张 数据 仓库 表 , 并 提供 简单 的 SQL(Structured Query Language) 查 询 
功能 ， 后 台 将 SQL 语句 转换 为 MapReduce 任务 来 运行 。 

使 用 Hive, 可 以 满足 一 些 不 懂 MapReduce {Ef SQL 的 数据 库 管 理 员 的 需求 , 让 他 们 能 
够 平滑 地 使 用 大 数据 分 析 平 台 。 

(6) Kafka。 

Apache Kafka 是 分 布 式 “ 发 布 -订阅 ”消息 系统 ， 最 初 ， 它 由 Linkedin 公司 开发 ， 而 后 
成 为 Apache Ji H . Kafka 是 一 种 快速 、 可 扩展 的 、 设 计时 内 在 地 就 是 分 布 式 的 、 分 区 的 和 
可 复制 的 提交 日 志 服 务 。 

Kafka 是 一 个 分 布 式 系统 ， 易 于 向 外 扩展 ， 可 为 发 布 和 订阅 提供 高 吞吐 量 ， 并 且 支 持 多 
订阅 者 ， 当 失败 时 ， 能 自动 平衡 消费 者 ; Kafka 可 将 消息 持久 化 存储 , 既 可 面向 非 实 时 业务 ， 
也 可 以 面向 实时 业务 。 
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(7) Storm. 
Storm 是 一 个 免费 开源 、 分 布 式 、 高 容错 的 实时 计算 系统 。 它 能 够 处 理 持 续 不 断 的 流 计 
算 任务 ， 目 前 ， 比 较 多 地 被 应 用 到 实时 分 析 、 在 线 机 器 学 习 、ETL 等 领域 。 


1.6 大 数据 职业 方向 


大 数据 作为 一 种 趋势 ， 已 吸引 了 越 来 越 多 的 重视 ， 目 前 ， 上 至 国家 部 委 、 下 至 普通 公 
司 ， 已 纷纷 开展 各 类 大 数据 平台 建设 与 分 析 应 用 ， 这 无 疑 对 想 要 从 事 大 数据 方面 工作 的 IT 
人 员 提 供 了 难得 的 历史 机 遇 。 

本 书 的 主要 定位 是 大 数据 实践 入 门 ， 通 过 对 主流 大 数据 技术 的 覆盖 性 讲解 ， 以 及 动手 
实践 ， 帮 助 从 业者 快速 入 门 。 入 门 之 后 ， 可 以 根据 个 人 兴趣 以 及 职业 趋势 ， 选 择 适 合 自己 
的 发 展 方向 。 

目前 就 本 书 看 来 ， 大 数据 技术 方面 比较 有 前 景 的 就 业 方向 主要 有 如 下 几 类 。 

一 是 大 数据 平台 架构 与 研发 ， 从 事 底层 的 大 数据 平台 研发 ， 这 类 方向 技术 难度 最 高 ， 
适合 于 前 沿 技术 机 构 ， 要 不 断 发 现 与 改进 目前 大 数据 技术 的 缺陷 ， 对 于 形成 稳定 版 本 的 大 
数据 平台 ， 要 面向 业界 进行 推广 。 这 类 岗位 整体 数量 不 多 ， 但 方向 会 比较 专注 。 

二 是 大 数据 平台 应 用 开发 : 从 事 大 数据 平台 应 用 技术 的 开发 工作 ， 满 足 大 量 企 事业 单 
位 使 用 大 数据 平台 的 需求 ， 这 类 岗位 会 比较 充足 ， 需 要 不 断 学 习 各 类 大 数据 平台 ， 并 应 用 
到 开发 项 目 中 。 

三 是 大 数据 平台 集成 与 运 维 : 从事 大 数据 平台 的 集成 与 运 维 工作 。 对 于 大 量 的 企 事业 
单位 的 大 数据 部 署 与 常规 应 用 来 说 ， 需 要 有 专职 的 集成 人 员 进 行 集成 安装 与 调试 ， 需 要 定 
期 运 维 人 员 进行 运 维 与 提供 技术 保障 ， 这 类 岗位 也 会 比较 充足 ， 但 需要 熟练 掌握 大 数据 平 
台 的 使 用 ， 针 对 问题 能 够 及 时 解决 。 

四 是 大 数据 平台 数据 分 析 与 应 用 : 从 事 数据 分 析 、 预 测 与 应 用 工作 ， 借 助 于 大 数据 
台 ， 分 析 各 类 业务 数据 ， 并 服务 于 业务 ， 这 类 岗位 跟 业务 休戚 相关 ， 一 些 对 数据 高 度 重视 
的 机 构 ， 如 精确 广告 营销 、 大 数据 安全 分 析 等 单位 ， 对 此 会 有 充足 的 人 才 需 求 。 

五 是 大 数据 技术 培训 与 推广 : 从 事 大 数据 技术 教育 与 培训 工作 。 这 类 工作 机 关 会 随 着 
大 数据 人 才 需 求 热度 的 提高 而 不 断 增加 岗位 人 数 ， 与 此 同时 ， 随 着 推广 程度 的 延伸 ， 也 会 
促 生 更 多 的 机 构 ， 会 有 更 多 的 人 才 加 入 大 数据 领域 。 


1.7 大 数据 实践 平台 的 搭建 


针对 大 数据 技术 的 学 习 ， 本 书 假定 读者 已 掌握 Linux 的 基本 使 用 、Java 简单 编程。 
本 书 的 定位 是 实践 ， 所 以 在 进入 后 面 的 学 习 前 ， 需 要 动手 搭建 实践 环境 。 这 里 给 出 几 

种 搭建 模式 ， 帮 助 读者 建立 适合 自己 的 环境 。 

1.7.1 初学 者 模式 


本 模式 是 在 一 台 物 理 机 (笔记 本 电脑 或 台式 机 ) 上 ， 根 据 计 算 机 硬件 性 能 ， 搭 建 一 台 或 三 
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台 虚 拟 主机 ， 在 虚拟 主机 里 部 署 各 类 大 数据 组 件 。 


a) 





所 需要 的 主要 软件 环境 如 下 。 

虚拟 主机 软件 ， 推荐 采用 VMware Workstation 或 Oracle VM VirtualBox. 
Linux 操作 系统 : 推荐 采用 Red Hat 或 CentOS。 

远程 管理 软件 ，SSH 或 SecureCRT。 

本 模式 的 安装 流程 如 下 。 

在 物理 机 上 安装 虚拟 主机 软件 。 

在 虚拟 主机 软件 中 新 建 虚拟 主机 ， 安 装 Linux。 

调 通 新 建 虚拟 主机 的 网 络 ， 可 以 实现 在 物理 机 与 虚拟 主机 之 间 互 访问 。 
开启 SSH 服务 ， 实 现 物理 主机 通过 SSH 管理 虚拟 主机 。 





本 模式 适合 初学 者 ， 优 点 是 简单 ， 缺 点 是 每 次 使 用 大 数据 时 ， 需 要 先 开 启 虚 拟 主机 ， 
无 法 随时 随地 使 用 。 


14.2 


物理 集群 模式 


本 模式 是 采用 多 台 (1 至 3 台 ) 物 理 服务 器 ， 在 标准 的 机 房 环 境 里 搭建 大 数据 平台 。 


a) 


COCOR Oooo 


所 需要 的 主要 软 硬 件 环境 如 下 : 

多 台 物 理 服务 器 。 

一 台 交换 机 。 

个 人 管理 机 ， 笔 记 本 电脑 或 台式 机 。 

Linux 操作 系统 ， 推 荐 采用 Red Hat 或 CentOS 。 

远程 管理 软件 ，SSH 或 SecureCRT。 

本 模式 的 安装 流程 如 下 。 

服务 器 上 架 与 物理 连 线 。 

在 所 有 物理 服务 器 上 安装 Linux 操作 系统 。 

调 通 物理 服务 器 之 间 的 网 络 ， 调 通 管理 机 对 物理 服务 器 的 网 络 。 
在 所 有 物理 服务 器 上 开启 SSH 服务 ， 并 增加 机 房 网 络 防 火 墙 安全 策略 ， 人 允许 管理 


机 通过 SSH 管理 物理 服务 器 。 
本 模式 适合 于 机 构 用 户 ， 有 一 定 的 硬件 资源 ， 优 点 是 性 能 优越 ， 可 永 备 使 用 ;缺点 是 
成 本 相对 较 高 ， 集 群 规模 有 限 。 


1.7.3 


虚拟 化 集群 模式 


本 模式 是 采用 云 计 算 的 模式 ， 底 层 设 置 多 台 物 理 服务 器 ， 通 过 云 计 算 管理 软件 实现 几 
十 、 上 百 台 虚 拟 主机 的 制备 ， 在 虚拟 主机 中 搭建 大 数据 平台 。 


a) 


所 需要 的 主要 软 硬 件 环境 如 下 : 

一 定数 量 的 物理 服务 器 。 

一 定数 量 的 交换 机 。 

个 人 管理 机 ， 笔 记 本 电脑 或 台式 机 。 
OpenStack 等 云 管理 软件 。 


: PTT 
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Linux 操作 系统 : 推荐 采用 Red Hat 或 CentOS. 

e 远程 管理 软件 ，SSH 或 SecureCRT。 

(2) 本 模式 的 安装 流程 如 下 。 

© 服务 器 上 架 与 物理 连 线 。 

© 在 所 有 物理 服务 器 上 安装 Linux 操作 系统 。 

图 ”部署 OpenStack 框架 , 在 物理 服务 器 上 按 要 求 部 署 Nova、Ceph、Glance、Keystone、 
Quantum, MySQL. HTTP. Horizon 等 组 件 模块 ， 完 成 云 计算 环境 的 部 署 。 

@” 调 通 物理 服务 器 、 云 计算 内 部 网 络 ， 调 通 管理 机 对 物理 服务 器 的 网 络 。 

© 制备 Linux 虚拟 主机 ， 并 开放 相关 的 SSH 管理 权限 。 

本 模式 适合 于 中 型 以 上 机 构 用 户 ， 利 用 富余 的 硬件 资源 搭建 云 环 境 ， 并 按 需 对 外 提供 
虚拟 主机 资源 ， 优 点 是 可 在 分 钟 级 内 批量 创建 或 回收 上 百 个 大 数据 节点 ， 满 足 更 多 用 户 、 
更 大 范围 的 使 用 ;缺点 是 需要 维护 云 计算 环境 ， 如 果 规 模 不 大 ， 成 本 会 比较 高 。 








1.8 小 结 


本 章 主要 介绍 分 布 式 系统 数据 处 理 的 基本 原则 ，CAP、BASE 等 ， 以 及 与 传统 关系 数据 
库 ACID 原则 的 关系 ， 为 读者 理解 和 学 习 后 续 章节 介绍 的 平台 和 工具 提供 预备 知识 。 
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HDFS 文件 系统 | 


本 章 介 绍 Hadoop 的 核心 组 成 部 分 HDFS 文件 系统 ， 包 括 其 原理 、 安 装 
与 配置 、 管 理 及 外 部 编程 接口 等 。 通 过 对 本 章 内 容 的 学 习 ， 使 读者 掌握 分 
布 式 文件 系统 的 主要 结构 、HDES 文件 系统 的 内 部 运行 原理 和 机 制 、HDFS 
的 数据 读 写 方式 ， 同 时， 了 解 HDFS 文件 系统 的 数据 传输 和 存储 模式 。 

本 章 最 后 将 详细 介绍 Hadoop 的 安装 和 基本 配置 。 学习 完 本 章 后 ， 读 
者 可 以 搭建 自己 的 Hadoop 集群 。 


本 章 要 点 
W ”HDFS 文件 系统 的 结构 与 组 成 
W  HDFS 系统 的 数据 读 写 
W  HDFS 系统 的 数据 存储 及 数据 完整 性 
W Hadoop 的 安装 及 配置 


«d 从 基础 理论 到 最 佳 实践 


2.4 HDFS 概述 


Hadoop 实现 了 一 个 分 布 式 文件 系统 (Hadoop Distributed File System, HDFS), HDFS 是 
Apache Hadoop Core 项 目的 一 部 分 ， 是 Hadoop 兼容 性 最 好 的 标准 级 分 布 式 文件 系统 。 


2.1.1 分 布 式 文件 系统 


当今 的 信息 时 代 中 ， 人 们 可 以 获取 的 数据 成 指数 倍 地 增长 。 单 纯 通 过 增加 硬盘 个 数 来 
扩展 计算 机 文件 系统 的 存储 容量 的 方式 ， 在 容量 大 小 、 容 量 增长 速度 、 数 据 备份 、 数 据 安 
全 等 方面 都 不 适用 ， 对 于 数据 量 很 大 的 应 用 系统 来 说 尤其 如 此 。 分 布 式 文件 系统 可 以 有 效 
解决 数据 的 存储 和 管理 难题 。 

分 布 式 文件 系统 (Distributed File System，DFS) 指 通过 一 套 管理 系统 ， 能 够 将 文件 分 散 
至 不 同 的 计算 机 进行 存储 ， 并 通过 规范 的 标准 协议 ， 方 便 客 户 机 进行 高 效 存 取 。 

与 单机 的 文件 系统 不 同 ， 分 布 式 文件 系统 不 是 将 数据 放 在 一 块 磁盘 上 由 上 层 操 作 系统 
来 管理 ， 而 是 存放 在 一 个 服务 器 集群 上 ， 由 集群 中 的 服务 器 通过 各 尽 其 责 、 通 力 合作 的 方 
式 提供 整个 文件 系统 的 服务 。 将 固定 于 某 个 地 点 的 某 个 文件 系统 ， 扩 展 到 任意 多 个 地 点 /多 
个 文件 系统 ， 这 些 节点 组 成 一 个 文件 系统 网 络 。 每 个 节点 可 以 分 布 在 不 同 的 地 点 ， 通 过 网 
络 进行 节点 间 的 通信 和 数据 传输 。 人 们 在 使 用 分 布 式 文件 系统 时 ， 无 须 关 心 数据 是 存储 在 
哪个 节点 上 ， 或 者 是 从 哪个 节点 获取 的 ， 只 需要 像 使 用 本 地 文件 系统 一 样 管理 和 存储 文件 
系统 中 的 数据 即 可 。 

分 布 式 文件 系统 中 , 重要 的 服务 器 包括 : 主 控 服务 器 (Master/NameNode)、 数据 服务 器 (一 
般 称 为 ChunkServer 或 DataNode) 和 客户 服务 器 (Client)。 分 布 式 文件 系统 的 典型 架构 如 图 2-1 
所 示 。 














图 2-1 典型 分 布 式 文件 系统 的 结构 


1. 分 布 式 文件 系统 的 特点 

与 传统 文件 系统 相 比 ， 分 布 式 文件 系统 具有 以 下 主要 特点 。 

(1) 可 扩展 性 强 。 扩 展 能 力 是 一 个 分 布 式 文件 系统 最 重要 的 特点 。 基 本 上 ， 所 有 的 分 
布 式 文件 系统 都 支持 随时 随地 对 数据 服务 器 进行 扩展 ， 提 升 存储 容量 和 访问 带宽 等 。 有 的 
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系统 还 支持 多 个 目录 / 主 控 服务 器 。 

Q) 统一 命名 空间 。 采 用 统一 命名 空间 ， 分 布 式 文件 系统 对 于 客户 端 是 完全 透明 的 ， 
客户 端 看 到 的 是 统一 的 全 局 命名 空间 ， 用 户 操作 起 来 就 像 是 管理 本 地 文件 系统 。 通 过 元 数 
据 管 理 ， 文 件 以 块 的 方式 采用 多 副本 模式 进行 存放 。 

G) 高 性 能 。 由 于 一 个 文件 被 分 成 多 份 ， 保 存在 不 同 的 数据 服务 器 上 ， 访 问 时 ， 可 以 
同时 读 取 ， 人 性 能 会 达到 最 优 。 

(4) 高 可 用 性 。 分 布 式 文件 系统 必须 具有 高 容错 能 力 ， 即 无 论 是 客户 端 还 是 服务 器 出 
现 故 障 ， 都 不 会 影响 整个 系统 的 功能 。 为 了 做 到 这 一 点 ， 单 点 失效 是 必须 被 避免 的 ， 例 如 
使 用 资源 元 余 技 术 或 者 提供 失效 恢复 服务 。 单 个 数据 节点 的 故障 并 不 会 影响 集群 整体 运转 。 

(5) 弹性 存储 。 可 以 根据 业务 需要 灵活 地 增加 或 缩减 数据 存储 以 及 增删 存储 池 中 的 资 
源 ， 而 不 需要 中 断 系 统 运 行 。 弹 性 存储 的 最 大 挑战 ， 是 减 小 或 增加 资源 时 的 数据 震荡 问题 。 


2. 常见 的 分 布 式 文件 系统 


分 布 式 文件 系统 既 有 开源 软件 平台 解决 方案 ， 如 Hadoop HDFS、Fast DFS 等 ， 也 有 非 
开源 平台 解决 方案 ， 如 最 为 著名 的 Google FS、 也 有 像 Windows Server 2003/2008 平台 上 的 
DFS 组 件 等 。 

分 布 式 文件 系统 在 当前 应 用 普遍 ， 产 品种 类 丰富 。 下 面 介绍 几 种 典型 的 系统 。 

(1) Lustre。 

Lustre 最 早 是 由 HP、Cluster File System 联合 美国 能 源 部 共同 开发 的 Linux 平台 下 的 分 
布 式 集群 文件 系统 , 后 期 由 于 Cluster File System 公司 被 Sun 收购 , 而 Sun 又 被 Oracle 收购 ， 
因此 ，Lustre 官方 网 站 目前 挂靠 在 Oracle 2 i] (http://wiki.lustre.org/index.php/Main Page). 

Lustre 主要 面向 超级 计算 机 ， 拥 有 超 强 可 扩展 性 与 可 靠 性 ， 能 够 支持 上 万 个 节点 、PB 
级 存储 、100GB/s 的 高 速 访问 能 力 。 

Lustre 采用 GPL 许可 协议 ， 属 于 开放 源 代码 的 分 布 式 集群 文件 系统 ， 开 发 语言 采用 
C/C++， 使 用 平台 为 Linux; 当前 ， 除 了 Oracle 公司 外 ， 有 新 成 立 的 名 为 Whamcloud 的 公 
司 专注 于 Lustre 平台 的 开源 研发 ， 其 官方 网 站 为 http://www.whamcloud.com/。 

(2) Google FS. 

Google FS(Google File System) 是 谷歌 公司 开发 的 一 个 分 布 式 可 扩展 的 文件 系统 , 它 主要 
用 于 大 型 、 分 布 式 、 大 数据 量 的 互联 网 应 用 平台 。 

Google FS 被 设计 运行 在 廉价 普通 的 PC 服务 器 上 ， 提 供 多 数据 副本 实现 数据 元 余 ， 通 
过 数据 分 块 并 行 存 取 ， 满 足 互联 网 用 户 的 海量 数据 存储 需求 。 

Google FS 最 早 是 由 Google 工程 师 于 2003 年 发 表 的 一 篇 学 术 文章 The Google File 
System 而 为 世人 所 熟知 的 , Google FS 提供 了 相似 的 访问 接口 , 如 read, write, create, delete, 
close 等 ， 使 得 开发 者 可 以 非常 方便 地 使 用 。 

Google FS 运行 于 Linux 平台 上 ， 开 发 语言 是 C/C++， 本 身 并 不 开源 ， 本 章 中 所 介绍 的 
Hadoop 平台 ， 是 在 受到 Google FS 启发 后 ,采用 其 理念 重新 用 Java 语言 实现 的 一 个 开源 
平台 。 

(3) Fast DFS. 

Fast DFS 是 一 个 类 Google FS 的 开源 分 布 式 文件 系统 , 它 由 C/C++ 语言 开发 , 可 运行 于 





T 





«d 从 基础 理论 到 最 佳 实践 


Linux, Unix, AIX 平台 。Fast DES 提供 专用 文件 存 取 访 问 方式 ， 不 支持 POSIX 接口 方式 ， 
在 系统 中 也 不 能 使 用 mount 方式 挂 接 。FastDFS 在 架构 上 充分 考虑 了 宛 余 备份 、 负 载 均衡 、 
可 扩展 等 问题 ， 平 台 本 身 具 有 高 可 用 、 高 性 能 等 优点 。Fast DFS 支持 文件 的 高 效 存储 、 同 
步 、 上 传 、 下 载 等， 比较 适合 于 互联 网 视频 网 站 、 文 档 分 享 网 站 、 图 片 分 享 网 站 等 应 用 。 


2.1.2 HDFS 介绍 


HDFS 是 Hadoop 的 核心 子 项 目 ， 是 整个 Hadoop 平台 数据 存储 与 访问 的 基础 ， 在 此 之 
上 ， 承 载 其 他 如 MapReduce、HBase 等 子 项 目的 运转 。 

HDFS 是 类 似 于 Google FS 的 开源 分 布 式 文件 系统 , 被 设计 成 适合 运行 在 通用 硬件 上 的 
分 布 式 文件 系统 。 它 与 现 有 的 分 布 式 文件 系统 有 很 多 共同 点 。 但 同时 ， 它 与 其 他 的 分 布 式 
文件 系统 的 区 别 也 是 很 明显 的 。 

HDFS 是 一 个 高 度 容 错 性 的 系统 ， 适 合 部 署 在 廉价 的 机 器 上 。HDFS 能 提供 高 吞吐 量 的 
数据 访问 ， 非 常 适合 大 规模 数据 集 上 的 应 用 。HDEFS 放宽 了 一 部 分 POSIX 约束 ， 来 实现 流 
式 读 取 文件 系统 数据 的 目的 。 

HDFS 是 易于 使 用 与 管理 的 分 布 式 文件 系统 ， 主 要 特点 和 设计 目标 如 下 。 


1. 硬件 故障 是 常态 


整个 HDFS 系统 可 以 由 数 百 或 数 千 个 存储 着 文件 数据 片段 的 服务 器 组 成 。 实 际 上 ， 它 
里 面 有 非常 巨大 的 组 成 部 分 ， 每 一 个 组 成 部 分 都 很 可 能 出 现 故障 ， 这 就 意味 着 HDFS 里 总 
是 有 一 些 部 件 是 失效 的 ， 因 此 故障 的 检测 和 自动 快速 恢复 是 HDFS 一 个 很 核心 的 设计 目标 。 
2. 流 式 数据 访问 


HDFS 被 设计 成 适合 批量 处 理 的 ， 而 不 是 用 户 交互 式 的 。POSIX 的 很 多 硬性 需求 对 于 
HDFS 应 用 都 是 非 必需 的 ，HDFS 放宽 了 POSIX 的 要 求 ， 这 样 ， 可 以 实现 以 流 的 形式 访问 
(Streaming Access) 文 件 系统 中 的 数据 。 同 时 去 掉 POSIX 一 小 部 分 关键 语义 ， 可 以 获得 更 好 
的 数据 吞吐 率 。 


3. 简单 的 一 致 性 模型 


大 部 分 HDFS 程序 对 文件 操作 需要 的 是 一 次 写 、 多 次 读 取 的 操作 模式 。HDFS 假定 一 个 
文件 一 旦 创建 、 写 入 、 关 闭 之 后 就 不 需要 修改 了 。 这 简单 化 了 数据 一 致 的 问题 ， 并 使 高 吞 
吐 量 的 数据 访问 变 得 可 能 。 

4. 名 字 节 点 (NameNode) 和 数据 节点 (DataNode) 


HDFS 是 一 个 主 从 结构 ， 一 个 HDFS 集群 包括 一 个 名 字 节 点 (也 叫 名 称 节点 )， 它 是 一 个 
管理 文件 命名 空间 和 调节 客户 端 访 问 文 件 的 主 服务 器 ， 当 然 ， 还 有 一 些 数据 节点 ， 通 常 是 
一 个 节点 一 个 机 器 ， 它 来 管理 对 应 节点 的 存储 。HDFS 对 外 开放 文件 命名 空间 ， 并 允许 用 户 
数据 以 文件 形式 存储 。 内 部 机 制 是 将 一 个 文件 分 割 成 一 个 或 多 个 块 ， 这 些 块 被 存储 在 一 组 
数据 节点 中 。 名 字 节 点 用 来 操作 文件 命名 空间 的 文件 或 目录 操作 ， 如 打开 、 关 闭 、 重 命名 
等 。 它 同时 确定 块 与 数据 节点 的 映射 。 数 据 节 点 负责 来 自 文件 系统 客户 的 读 写 请 求 。 数 据 
节点 同时 还 要 执行 块 的 创建 、 删 除 ， 以 及 来 自 名 字 节 点 的 块 复制 指令 。 
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5. 大 规模 数据 集 

HDFS 被 设计 为 PB 级 以 上 存储 能 力 ， 单 个 的 存储 文件 可 以 是 GB 或 者 TB 级 。 因 此 ， 
HDFS 的 一 个 设计 原则 是 支持 成 千 上 万 大 数据 文件 的 存储 , 即将 单个 文件 分 成 若干 标准 数据 
块 ， 分 布 存储 于 多 个 节点 上 ， 当 用 户 访问 整个 文件 时 ， 由 这 些 节 点 集群 向 用 户 传输 所 拥有 
的 数据 块 ， 由 此 可 以 获得 极 高 的 并 行 数据 传输 速率 。 

6. 可 移植 性 


HDFS 在 设计 之 初 ,就 考虑 到 了 蜡 构 软 硬 件 平台 间 的 可 移植 性 ， 能 够 适应 于 主流 硬件 了 
Re 它 基 于 跨 操作 系统 平台 的 Java 语言 进行 编写 , 这 有 助 于 HDFS 平台 的 大 规模 应 用 推广 。 

名 字 节 点 是 整个 HDFS 的 核心 。 一 个 标准 的 HDFS 集群 应 由 名 字 节 点 、 备 用 名 字 节 点 、 
数据 节点 组 成 ，HDFS 的 基本 结构 如 图 2-2 所 示 。 
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图 2-2 HDFS 系统 的 基本 结构 


集群 中 ， 一 台 机 器 上 只 运行 一 个 NameNode 实例 ， 而 集群 中 其 他 机 器 分 别 运行 一 个 
DataNode 实例 。NameNode 是 一 个 中 心服 务 器 ， 负 责 管 理 文件 系统 的 名 字 空 间 以 及 客户 端 
对 文件 的 访问 ， 用 户 能 够 以 文件 的 形式 在 上 面 进行 名 字 空 间 操作 ， 比 如 打开 、 关 闭 、 重 命 
名 文件 或 目录 ， 同 时 ，NameNode 还 决定 了 数据 块 到 数据 节点 的 映射 关系 。NameNode 也 可 
以 称 为 管理 文件 系统 的 元 数据 。 集 群 中 ， 每 一 个 节点 配置 一 个 DataNode， 每 个 DataNode 
负责 管理 它 所 在 节点 上 的 数据 存储 。 从 内 部 看 ， 一 个 文件 被 分 成 一 个 或 多 个 数据 块 ， 这 些 
块 存储 在 一 组 DataNode 上 。 同 时 ，DataNode 负责 处 理 文件 系统 客户 端的 读 写 请 求 ， 在 
NameNode 的 统一 调度 下 进行 数据 块 的 创建 、 删 除 和 复制 。 

HDFS 的 数据 块 : 磁盘 存储 文件 时 ， 是 按照 数据 块 (block) 来 存储 的 ， 也 就 是 说 ,数据 块 
是 磁盘 读 / 写 的 最 小 单位 。 数 据 块 也 称 磁盘 块 。 在 HDFS 中 也 有 块 的 概念 ， 默 认为 64MB, 
每 个 块 作为 独立 的 存储 单元 。 

基于 数据 块 的 存储 方式 非常 适合 用 于 备份 ， 可 提供 数据 容错 能 力 和 可 用 性 (如 图 2-3 所 
示 )。HDFS 提供 给 应 用 程序 例如 asbl 数据 服务 。 一 般 来 说 ，MapReduce 的 Map 任务 
通常 一 次 处 理 一 个 块 中 的 数据 ， 如 果 任 务 数 太 少 ( 少 于 集群 中 节点 的 数量 )， 就 没有 发 挥 多 节 
点 的 优势 ， 甚 至 作业 的 运行 速度 就 会 与 单 节点 一 样 。 
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Block Replication 





Jusers/sameerpidata/part-0, r:2, (1,3), .... 


Namenode (Filename, numReplicas, block-ids, ...) 
lusers/sameerp/data/part-1, r:3, {2,4,5}, … 





Datanodes 
































2-3 HDFS 块 副本 


2.2 HDFS 的 运行 机 制 
本 节 将 详细 介绍 HDFS 的 结构 与 运行 原理 。 


2.2.1 HDFS 的 结构 与 组 成 


HDFS 采用 主 / 从 (MasterSlave) 结 构 ， 整 个 集群 由 一 个 名 字 节 点 和 多 个 数据 节点 组 成 。 
NameNode 主要 负责 管理 文件 命名 空间 和 客户 端 访问 的 主 服务 器 ， 而 DataNode 则 负责 





对 存储 进行 管理 。 
HDFS 的 体系 结构 如 图 2-4 所 示 。 
HDFS Architecture 
Lu Metadata (Name, replicas, ...): 
Meta sata ops | Namerede | | /home/foo/data, 3, ... 
Block ‘Ops 
Read Datanodes ~ Datanodes 
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2-4 HDFS 的 体系 结构 
由 图 24 可 知 ， 名 字 节 点 NameNode 上 保存 着 控制 数据 节点 DataNode 信息 的 元 数据 
(Metadata)。 客 户 端 Client 可 以 通过 NameNode 对 元 数据 进行 操作 ， 也 可 以 直接 对 DataNode 
进行 读 和 写 操作 。 
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1. NameNode 的 主要 功能 


(1) 管理 元 数据 信息 。 元 数据 信息 包括 名 字 空 间 、 文 件 到 文件 块 的 映射 、 文 件 块 到 数 
据 节点 的 映射 三 部 分 。 管 理 文件 块 包括 创建 新 文件 块 、 文 件 复制 、 移 除 无 效 文件 块 以 及 回 
收 孤 立 文件 块 等 内 容 。 

(2) 管理 文件 系统 的 命名 空间 。 任 何 对 文件 系统 元 数据 产生 修改 的 操作 ，NameNode 
都 会 使 用 事务 日 志 记录 (下 称 EditLog) 来 表示 ; 同样 地 ,修改 文件 的 副本 系数 也 将 往 EditLog 
中 插入 一 条 记录 ，NameNode 将 EditLog 存储 在 本 地 操作 系统 的 文件 系统 中 。 同 时 , 文件 系统 
的 命名 空间 被 存储 在 一 个 称 为 映像 文件 (FsImage) 的 文件 中 ,包括 文件 的 属性 、 文 件 块 到 文件 
的 映射 以 及 文件 块 到 数据 节点 的 映射 等 内 容 , FsImage 文件 也 是 存放 在 NameNode 所 在 的 本 
地 文件 系统 中 。 

(3) 监听 请 求 。 指 监听 客户 端 事件 和 DataNode 事件 。 客 户 端 事件 包含 名 字 空 间 的 创建 
和 删除 ， 文 件 的 创建 、 读 写 、 重 命名 和 删除 ， 文 件 列表 信息 获取 等 信息 。DataNode 事件 主 
要 包括 文件 块 信息 、 心 跳 响应 、 出 错 信息 等 。 处 理 请 求 指 处 理 上 面 的 监听 请 求 事件 并 返回 
结果 。 

(4) 心跳 检测 。DataNode 会 定期 将 自己 的 负载 情况 通过 心跳 信息 向 NameNode 汇报 。 
NameNode 全 权 管 理 数据 块 的 复制 ， 它 周期 性 地 从 集群 中 的 每 个 DataNode 接收 心跳 信号 和 
块 状态 报告 Block Report)。 接 收 到 心跳 信号 意味 着 该 DataNode 节点 工作 正常 。 块 状态 报告 
包含 了 一 个 该 DataNode 上 所 有 数据 块 的 列表 。 

NameNode 决定 是 否 将 文件 映射 到 DataNode 的 复制 块 上 。 

对 于 最 常见 的 三 个 复制 块 ， 第 一 个 复制 块 存储 在 同一 机 架 的 不 同 节点 上 ， 最 后 一 个 复 
制 块 存储 在 不 同 机 架 的 某 个 节点 上 。 

实际 的 VO 事务 并 没有 经 过 NameNode， 只 有 表示 DataNode 和 块 的 文件 映射 的 元 数据 
经 过 NameNode。 当 外 部 客户 机 发 送 请 求 ， 要 求 创 建文 件 时 ，NameNode 会 以 块 标识 和 该 块 
的 第 一 个 副本 的 DataNode IP 地 址 作为 响应 。 这 个 NameNode 还 会 通知 其 他 将 要 接收 该 块 的 
副本 的 DataNode。 

NameNode 在 FsImage 文件 中 存储 所 有 关于 文件 系统 名 称 空间 的 信息 , 包含 所 有 事务 的 
记录 文件 EditLog 存储 在 NameNode 的 本 地 文件 系统 上 。FsImage 和 EditLog 文件 也 需要 复 
制 副本 ， 以 防 文件 损坏 或 NameNode 系统 丢失 。 


2. DataNode 的 主要 功能 


(1) 数据 块 的 读 写 。 一 般 是 文件 系统 客户 端 需要 请 求 对 指定 的 DataNode 进行 读 写 操作 ， 
DataNode 通过 DataNode 的 服务 进程 与 文件 系统 客户 端 打交道 。 同 时 ，DataNode 进程 与 
NameNode 统一 结合 ， 对 是 否 需要 对 文件 块 的 创建 、 删 除 、 复 制 等 操作 进行 指挥 与 调度 ， 当 
与 NameNode 交互 过 程 中 收 到 了 可 以 执行 文件 块 的 创建 、 删 除 或 复制 操作 的 命令 后 ， 才 开 
始 让 文件 系统 客户 端 执行 指定 的 操作 。 具 体 文件 的 操作 并 不 是 DataNode 来 实际 完成 的 ， 而 
是 经 过 DataNode 许可 后 ， 由 文件 系统 客户 端 进程 来 执行 实际 操作 。 

(2) 向 NameNode 报告 状态 。 每 个 DataNode 节点 会 周期 性 地 向 NameNode 发 送 心跳 信号 
和 文件 块 状态 报告 ， 以 便 NameNode 获取 到 工作 集群 中 DataNode 节点 状态 的 全 局 视图 ， 从 
而 掌握 它们 的 状态 。 如 果 存 在 DataNode 节点 失效 的 情况 ， NameNode 会 调度 其 他 DataNode 
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执行 失效 节点 上 文件 块 的 复制 处 理 ， 保 证 文件 块 的 副本 数 达到 规定 数量 。 

(3) 执行 数据 的 流水 线 复制 。 当 文件 系统 客户 端 从 NameNode 服务 器 进程 中 获取 到 要 
进行 复制 的 数据 块 列表 (列表 中 包含 指定 副本 的 存放 位 置 ， 亦 即 某 个 DataNode 节点 ) 后 ， 会 
首先 将 客户 端 缓存 的 文件 块 复制 到 第 一 个 DataNode 节点 上 ， 此 时 ， 并 非 整个 块 都 复制 到 第 
一 个 DataNode 完成 以 后 才 复制 到 第 二 个 DataNode 节点 上 , 而 是 由 第 一 个 DataNode 向 第 二 
个 DataNode 节点 复制 ， 如 此 反复 进行 下 去 ， 直 到 完成 文件 块 及 其 块 副本 的 流水 线 复制 。 


2.22 HDFS 的 数据 操作 


HDFS 被 设计 成 在 一 个 大 集群 中 可 以 跨 机 器 地 可 靠 地 存储 海量 的 文件 。 它 将 每 个 文件 存 
储 成 block( 即 数据 块 ) 序 列 ， 除 了 最 后 一 个 block， 其 他 所 有 的 block 都 是 同样 的 大 小 。 


1. 数据 写 入 
在 HDFS 文件 系统 上 创建 并 写 一 个 文件 的 流程 如 图 2-5 所 示 。 








namenode 
client JVM T 
client node mi 
Awrite packet? i S:ack packet 

EH 
i 
+i 

4, 

Pipeline of LH 
datanodes 5 
datanode datanode datanode 





2-5 HDFS 写 入 流程 


具体 流程 描述 如 下 。 

(1) Client 调用 DistributedFileSystem 对 象 的 create 方法 ,创建 一 个 文件 输出 流 
(FSDataOutputStream) 对 象 。 

(2) 通过 DistributedFileSystem 对 象 与 Hadoop 集群 的 NameNode 进行 一 次 远程 调用 
(RPC)， 在 HDFS 的 Namespace 中 创建 一 个 文件 条 目 (Entry)， 该 条 目 没有 任何 的 数据 块 。 

(3) 通过 FSDataOutputStream 对 象 ， 向 DataNode 写 入 数据 ， 数 据 首 先 被 写 入 
FSDataOutputStream 对 象 内 部 的 Buffer 中 ， 然 后 数据 被 分 割 成 一 个 个 Packet 数据 包 。 

(4) 以 Packet 为 最 小 单位 ， 基 于 Socket 连接 发 送 到 按 特 定 算法 选择 的 HDFS 集群 中 的 
一 组 DataNode( 正 常 是 3 个 ， 可 能 大 于 等 于 1) 中 的 一 个 节点 上 ， 在 这 组 DataNode 组 成 的 
Pipeline 上 依次 传输 Packet。 

(5) 这 组 DataNode 组 成 的 Pipeline 反方 向 上 发 送 ack 确认 ， 最 终 由 Pipeline 中 第 一 个 
DataNode 节点 将 Pipeline ack 发 送 给 Client. 

(6) 完成 向 文件 写 入 数据 ，Client 在 文件 输出 流 (FSDataOutputStream) 对 象 上 调用 close 
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方法 ， 关 闭 流 。 
(7) 调用 DistributedFileSystem 对 象 的 complete 方法 ， 通 知 NameNode 文件 写 入 成 功 。 


写 文件 过 程 中 ，Client/DataNode 5 NameNode 进行 的 RPC 调用 。 


© 写 文 件 开 始 时 创建 文件 Client 调用 create， 在 NameNode 节点 的 命名 空间 中 创建 
一 个 标识 该 文件 的 条 目 。 

© Æ Client i44% Pipeline 中 第 一 个 DataNode 节点 之 前 ，Client 调用 addBlock 分 配 一 
个 数据 块 。 

图 如果 与 Pipeline 中 第 一 个 DataNode 节点 连接 失败 ，Client 调用 abandonBlock 放弃 
一 个 已 经 分 配 的 数据 块 。 

(à) 一 个 Block 已 经 写 入 到 DataNode 节点 磁盘 , Client 调用 fsync 让 NameNode 持久 化 
数据 块 的 位 置信 息 数 据 。 

© 文件 写 完 以 后 ，Client 调用 complete 方法 通知 NameNode 写 入 文件 成 功 。 

DataNode 节点 接收 到 并 成 功 持久 化 一 个 数据 块 的 数据 后 , 调用 blockReceived 方法 
通知 NameNode 已 经 接收 到 数据 块 。 

2. 数据 读 取 


相 比 于 写 入 流程 ，HDFS 文件 的 读 取 过 程 比较 简单 ， 如 图 2-6 所 示 。 
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图 2-6 HDFS 读 取 数据 


文件 的 读 取 操 作 流程 如 下 。 

(1) 客户 端 调用 FileSystem 的 open0 函 数 打开 文件 ，DistributedFileSystem 用 RPC 调用 
元 数据 节点 ， 得 到 文件 的 数据 块 信息 。 

Q) 对 于 每 一 个 数据 块 ， 元 数据 节点 返回 保存 数据 块 的 数据 节点 的 地 址 。 
DistributedFileSystem 返回 FSDataInputStream 给 客户 端 ， 用 来 读 取 数据 。 
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(3) 客户 端 调用 stream 的 read0 函 数 开始 读 取 数 据 。 

(4) DFSInputStream 连接 保存 此 文件 第 一 个 数据 块 的 最 近 的 数据 节点 。 

(5) Data 从 数据 节点 读 到 客户 端 ， 当 此 数据 块 读 取 完 毕 时 ，DFSInputStream 关闭 与 此 
数据 节点 的 连接 ， 然 后 连接 此 文件 下 一 个 数据 块 的 最 近 的 数据 节点 。 

(6) 当 客 户 端 读 取 数 据 完毕 的 时 候 ， 调 用 FSDataInputStream 的 close 函数 。 

在 读 取 数 据 的 过 程 中 ， 如 果 客 户 端 在 与 数据 节点 通信 时 出 现 错误 ， 则 尝试 连接 包含 此 
数据 块 的 下 一 个 数据 节点 。 失 败 的 数据 节点 将 被 记录 下 来 ， 以 后 不 再 连接 。 


2.2.3 访问 权限 


HDFS 实现 了 一 个 与 POSIX 类 似 的 文件 和 目录 的 权限 模型 。 有 三 类 权限 模式 ， 只 读 权 
限 (r)、 写 入 权限 (w) 和 可 执行 权限 (x)。 每 个 文件 和 目录 都 有 所 属 用 户 (owner)、 所 属 组 (group) 
和 模式 (mode)。 文件 或 目录 对 其 所 有 者 、 同 组 的 其 他 用 户 以 及 所 有 其 他 用 户 分 别 有 着 不 同 的 
权限 。 对 文件 而 言 ， 当 读 取 这 个 文件 时 ， 需 要 有 T 权限， 当 写 入 或 者 追加 到 文件 时 ， 需 要 有 
w 权 限 。 对 目录 而 言 ， 当 列 出 目录 内 容 时 ， 需 要 具有 Tr 权限 ， 当 新 建 或 删除 子 文件 或 子 目录 
时 ， 需 要 有 w 权限 ， 当 访问 目录 的 子 节点 时 ， 需 要 有 x 权限 。 不 同 于 POSIX 模型 ，HDFS 
权限 模型 中 的 文件 没有 sticky、setuid 或 setgid 位 ， 因 为 这 里 没有 可 执行 文件 的 概念 。 

每 个 访问 HDFS 的 用 户 进程 的 标识 分 为 两 个 部 分 ， 分 别 是 用 户 名 和 组 名 列表 。 每 次 用 
户 进程 访问 一 个 文件 或 home 目录 ，HDFS 都 要 对 其 进行 权限 检查 : 

e HRHP E home 的 所 有 者 ， 则 检查 所 有 者 的 访问 权限 。 

€ iR home 关联 的 组 在 组 名 列表 中 出 现 , 则 检查 组 用 户 的 访问 权限 ; 否则 检查 home 

其 他 用 户 的 访问 权限 。 

e 如 果 权 限 检查 失败 ， 则 客户 的 操作 会 失败 。 

在 HDFS 中 ， 客 户 端 用 户 身份 是 通过 宿主 操作 系统 给 出 的 。 

对 类 Unix 系统 来 说 : 

e 用 户 名 等 于 "whoami"。 

e 组 列表 等 于 "bash -c groups 

每 次 文件 或 目录 操作 都 传递 完整 的 路 径 名 给 NameNode, 每 一 个 操作 都 会 对 此 路 径 做 权 
限 检查 。 客 户 框架 会 隐 式 地 将 用 户 身 份 和 与 NameNode 的 连接 关联 起 来 ， 从 而 减少 改变 现 
有 客户 端 API 的 需求 。 经 常会 有 这 种 情况 : 当 对 一 个 文件 的 某 一 操作 成 功 后 ， 之 后 同样 的 
操作 却 会 失败 ， 这 是 因为 文件 或 路 径 上 的 某 些 目录 可 能 已 经 不 复 存 在 了 。 比 如 ， 客 户 端 首 
先 开 始 读 一 个 文件 ， 它 向 NameNode 发 出 一 个 请 求 以 获取 文件 第 一 个 数据 块 的 位 置 。 但 接 
下 去 获取 其 他 数据 块 的 第 二 个 请 求 可 能 会 失败 。 另 一 方面 ， 删 除 一 个 文件 并 不 会 撤销 客户 
端 已 经 获得 的 对 文件 数据 块 的 访问 权限 。 而 权限 管理 能 使 得 客户 端 对 一 个 文件 的 访问 许可 
在 两 次 请 求 之 间 被 收回 。 重 复 一 下 ， 权 限 的 改变 并 不 会 撤销 当前 客户 端 对 文件 数据 块 的 访 
问 许可 。 

如 果 权 限 检查 失败 ， 所 有 使 用 一 个 路 径 参 数 的 方法 都 可 能 抛 出 AccessControlException 
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2.24 ”通信 协议 簇 
HDFS 所 有 的 通信 协议 都 是 构建 在 TCP/IP 协议 上 的 。 客 户 端 通过 一 个 可 配置 的 端口 连 
接 到 NameNode, 通过 ClientProtocol 与 NameNode 交互, 而 DataNode 是 使 用 DataNodeProtocol 
与 NameNode 交互 的 。 从 ClientProtocol 和 DataNodeProtocol 抽象 出 一 个 远程 调用 ， 在 设计 
上 ，NameNode 不 会 主动 发 起 RPC， 而 是 响应 来 自 客户 端 和 DataNode 的 RPC 请 求 。 
HDFS 中 的 主要 通信 协议 见 表 2-1。 
表 2-1 HDFS 的 主要 通信 协议 





名 称 功 能 

人 用 户 进程 (包括 客户 端 进程 与 DataNode 进程 ) 与 NameNode 进程 之 间 进 行 通 
信 所 使 用 的 协议 
DataNode 进程 与 NameNode 进程 进行 之 间 通 信 所 使 用 的 协议 ， 例 如 发 送 心 

DataNodeProtocol 跳 报告 和 块 状态 报告 

"— — 客户 端 进程 和 DataNode 进程 之 间 在 通信 过 程 中 所 使 用 的 协议 ， 用 户 通过 
ClientProtocol 协议 ， 可 操纵 HDFS 的 目录 命名 空间 、 打 开 与 关闭 文件 流 等 

NameNodeProtocol NameNode 进程 与 SecondaryNameNode 进程 之 间 进 行 通信 的 协议 





DataTransferProtocol 负责 客户 端 与 数据 节点 之 间 的 数据 传输 
DataNode 进程 之 间 进 行 通信 的 协议 ， 例 如 客户 端 进程 启动 复制 数据 块 ， 此 
时 可 能 需要 在 DataNode 节点 之 间 进 行 块 副本 的 流水 线 复制 操作 


JInterDatanodeProtocol 





(1) ClientProtocol. 

ClientProtocol 协议 是 用 户 进程 (包括 客户 端 进程 与 DataNode 进程 ) 与 NameNode 进程 之 
间 进 行 通 信 所 使 用 的 协议 。 当 客户 端 进程 想 要 与 NameNode 进程 进行 通信 的 时 候 ， 需 要 通 
过 org.apache.hadoop.hdfs.DistributedFileSystem 类 , 基于 ClientProtocol 协议 来 实现 交互 过 程 。 
用 户 代 码 通过 ClientProtocol 协议 , 可 以 操纵 HDFS 的 目录 命名 空间 、 打 开 与 关闭 文件 流 等 。 

该 接口 协议 中 定义 的 与 文件 内 容 相关 的 操作 主要 有 : GD 文件 管理 ， 文 件 的 增 、 删 、 改 ， 
权限 控制 、 文 件 块 管理 等 ，@) 文 件 系统 管理 ， 查 看 文件 系统 状态 和 设置 元 数据 信息 ， 例 如 
容量 、 块 大 小 、 副 本 因子 数 等 ，@ 持 久 会 话 类 ， 如 放弃 对 指定 块 的 操作 、 客 户 端 同 步 等 。 

协议 位 置 如 图 2-7 所 示 。 


NameNode 
ClientProtocol 一 一 


DataNodeProtocol 
ER DataNode 


2-7 HDFS 协议 示意 









(2) DataNodeProtocol。 
该 协议 是 用 于 DataNode 与 NameNode 进行 通信 的 协议 , 例如 发 送 心跳 报告 和 块 状态 报 
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告 。 一 般 来 说 ，NameNode 不 直接 对 DataNode 进行 RPC 调用 ， 如 果 一 个 NameNode 需要 与 
DataNode 通信 ， 唯 一 的 方式 ， 就 是 通过 调用 该 协议 接口 定义 的 方法 。 

(3) ClientDatanodeProtocol。 

当 客 户 端 进程 需要 与 DataNode 进程 进行 通信 的 时 候 ， 需 要 基于 该 协议 。 该 协议 接口 定 

(4) NameNodeProtocol。 

该 协议 接口 定义 了 备用 NameNode(Secondary NameNode) 与 NameNode 进行 通信 所 需 进 
行 的 操作 。 其 中 ，Secondary NameNode 是 一 个 用 来 辅助 NameNode 的 服务 器 端 进程 ， 主 要 
是 对 映像 文件 执行 特定 的 操作 ， 另 外 ， 还 包括 获取 指定 DataNode 上 块 的 操作 。 

(5) DataTransferProtocol. 

该 协议 用 于 客户 端 与 DataNode 之 间 通 信 ， 主 要 实现 文件 块 的 读 写 及 验证 等 操作 。 

(6) InterDatanodeProtocol。 

该 协议 是 DataNode 进程 之 间 进 行 通信 的 协议 ， 例 如 客户 端 进程 启动 复制 数据 块 ， 此 时 
可 能 需要 在 DataNode 节点 之 间 进 行 块 副本 的 流水 线 复制 操作 。 


2.2.5 HDFS 的 高 可 用 性 


在 Hadoop 2.0 之 前 的 版 本 中 ，NameNode 在 HDFS 集群 中 存在 单 点 故障 ， 每 一 个 集群 
中 存在 一 个 NameNode， 如果 NameNode 所 在 的 机 器 出 现 了 故障 ,那么 ,将 导致 整个 集群 无 
法 利用 ， 直 到 NameNode 重启 或 者 在 另 一 台 主机 上 启动 NameNode 守护 线程 。 在 可 预知 的 
情况 下 (比如 NameNode 所 在 的 机 器 硬件 或 者 软件 需要 升级 ) 以 及 在 不 可 预测 的 情况 下 , 如 果 
NameNode 所 在 的 服务 器 崩溃 了 ， 都 将 导致 整个 集群 无 法 使 用 。 

在 Hadoop 2.0 及 以 后 的 版 本 中 , HDFS 的 高 可 用 性 (High Availability) 通 过 在 同一 个 集群 
中 运行 两 个 NameNode 实现 : 活动 节点 (Active NameNode) 和 备用 节点 (Standby NameNode)， 
允许 在 服务 器 骨 溃 或 者 机 器 维护 期 间 快速 地 启用 一 个 新 的 NameNode 来 恢复 故障 。 在 典型 
的 HA 集群 中 , 通常 有 两 台 不 同 的 机 器 充当 NameNode。 在 任何 时 间 都 只 有 一 台 机 器 处 于 活 
动 (Active) 状 态 ， 另 一 台 处 于 待命 (Standby) 状 态 。Active NameNode 负责 集群 中 所 有 客户 端 
的 操作 ;而 Standby NameNode 主要 用 于 备用 ， 它 维持 足够 的 状态 ， 在 必要 时 提供 快速 的 故 
障 恢复 。 
图 2-8 展示 了 HDFS 的 高 可 用 性 实现 原理 ， 其 中 ，NameNode 简写 为 NN，DataNode 简 
写 为 DN。 由 图 中 可 以 看 出 ， 两 个 NameNode 都 与 一 组 称 为 JNs(JournalNodes) 的 互相 独立 的 
守护 进程 保持 通信 , 实现 Standby NN 的 状态 和 Active NN 的 状态 同步 , 使 元 数据 保持 一 致 。 
当 Active NN 执行 任何 有 关 命 名 空间 的 修改 时 ,需要 发 送 到 一 半 以 上 的 JNs 上 (通过 Edits log 
进行 持久 化 存储 )。 当 Standby NN 观察 到 Edits log 的 变化 时 , CAA JNs 中 读 取 edits 信息 ， 
并 更 新 其 内 部 的 命名 空间 。 一 旦 Active NN 出 现 故 障 ，Standby NN 首先 确保 自己 在 发 生 故 
障 之 前 从 JNs 中 读 出 了 全 部 的 修改 内 容 ， 然 后 切换 到 Active 状态 。 

为 了 提供 快速 的 故障 恢复 ，Standby NN 也 需要 保存 集群 中 各 个 文件 块 的 存储 位 置 。 为 
了 达到 这 一 目的 ，DataNodes 上 需要 同时 配置 这 两 个 NameNode 的 地 址 ， 同 时 ， 与 它们 都 建 
立 心跳 连接 ， 并 把 block 位 置 等 信息 发 送 给 它们 。 对 于 JNs 而 言 ， 任 何 时 候 ， 只 允许 一 个 
NameNode 作为 数据 写 入 者 。 对 于 DataNodes， 只 执行 Active NN 发 送 过 来 的 命令 。 
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2-8 HDFS 高 可 用 性 的 实现 


226 ”集中 缓存 管理 


HDFS 采用 集中 式 的 缓存 管理 (HDFS centralized cache management) 技 术 。 

HDFS 集中 式 缓存 管理 是 一 个 明确 的 缓存 机 制 ， 它 允许 用 户 指 定 缓存 的 HDFS 路 径 。 
NameNode 会 与 保存 着 所 需 块 数据 的 所 有 DataNode 通信 ， 并 指导 它们 把 块 数据 放 在 堆 外 组 
存 (off-heap) 中 。HDFS 集中 式 缓存 管理 的 架构 如 图 2-9 所 示 。 


de NN translates path 
g. via Hive DOL) lo a set of blocks, 


adds to pending 
caching queue 





2-9 HDFS 集中 式 缓存 的 架构 


由 图 2-9 可 以 看 到 ，NameNode 负责 协调 集群 中 所 有 DataNode 的 offheap 缓存 。 
NameNode 周期 性 地 接收 来 自 每 个 DataNode 的 缓存 报告 ， 缓 存 报 告 中 描述 了 缓存 在 给 定 
DataNode 中 的 所 有 块 的 信息 。 


«d 从 基础 理论 到 最 佳 实践 


NameNode 通过 借助 DataNode 心跳 上 的 缓存 和 非 缓存 命令 , 来 管理 DataNode 缓存 。 组 
存 指令 存储 在 人 image 和 editlog 中 , 可 以 通过 Java 和 命令 行 API 添 加 、 移 除 或 修改 ,NameNode 
查询 自身 的 缓存 指令 集 ， 来 确定 应 该 缓存 哪个 路 径 。NameNode 还 存储 了 一 组 缓存 池 ( 缓 存 
池 是 一 个 管理 实体 ， 用 于 管理 缓存 指令 组 )。 

NameNode 周期 性 地 重复 扫描 命名 空间 和 活跃 的 缓存 ， 以 确定 需要 缓存 或 不 缓存 哪个 
块 ， 并 向 DataNode 分 配 缓存 任务 。 重 复 扫 描 也 可 以 由 用 户 动作 来 触发 ， 比 如 添加 或 删除 一 
条 缓存 指令 ， 或 者 删除 一 个 缓存 池 。 

HDFS 集中 化 缓存 管理 具有 许多 优势 。 

(1) 用 户 可 以 根据 自己 的 逻辑 指定 一 些 经 常 被 使 用 的 数据 或 者 高 优先 级 任务 对 应 的 数 
据 ， 让 它们 常 驻 内 存 而 不 被 淘汰 到 磁盘 。 当 工作 集 的 大 小 超过 了 主 内 存 大 小 (这 种 情况 对 于 
许多 HDFS 负载 都 是 常见 的 ) 时 ， 这 一 点 尤为 重要 。 

(2) 由 于 DataNode 缓存 是 由 NameNode 管理 的 ， 所 以 在 分 配 任务 时 ， 应 用 程序 可 以 通 
过 查询 一 组 缓存 块 的 位 置 ， 把 任务 和 缓存 块 副本 放 在 同一 位 置 上 ， 提 高 读 操 作 的 性 能 。 

G) 当 数 据 块 已 经 被 DataNode 缓存 时 ， 客 户 端 就 可 以 使 用 一 个 新 的 更 高 效 的 零 找 贝 读 
操作 API。 因 为 缓存 数据 的 校 验 和 只 需 由 DataNode 执行 一 次 ， 所 以 ， 使 用 零 拷 贝 API 时 ， 
客户 端 基本 上 不 会 有 开销 。 

(4) 集中 式 的 缓存 可 以 提高 整个 集群 的 内 存 使 用 率 。 当 依赖 于 单独 的 DataNode 上 操作 
系统 的 内 存 进行 缓存 时 ， 重 复读 取 一 个 块 数据 会 导致 该 块 的 一 个 或 多 个 副本 全 部 被 送 入 内 
存 中 缓存 。 使 用 集中 化 缓存 管理 ， 用 户 就 能 明确 地 只 锁定 这 N 个 副本 中 的 M 个 了 ， 从 而 节 
省 了 (CN-M) 个 内 存 的 使 用 量 。 

(5) 即使 出 现 缓存 数据 的 DataNode 节点 宕 机 、 数 据 块 移动 或 集群 重启 等 问题 ， 缓 存 都 
不 会 受到 影响 。 因 为 缓存 被 NameNode 统一 管理 并 被 持久 化 到 fsimage 和 editlog 中 ， 出 现 
问题 后 ，NameNode 会 调度 其 他 存储 了 这 个 数据 副本 的 DataNode， 把 它 读 取 到 内 存 。 














过 减少 或 消除 关键 通信 路 径 影响 速率 的 操作 ， 降 低 数 据 传输 的 操作 系统 开销 和 协议 处 理 开 
销 ， 从 而 有 效 提高 通信 性 能 ， 实 现 高 速 数 据 传输 。 

零 捞 贝 技 术 可 以 减少 数据 拷贝 和 共享 总 线 操作 的 次 数 ， 消 除 通信 数据 在 存储 器 之 间 不 
必要 的 中 间 拷贝 过 程 ， 有 效 地 提高 通信 效率 ， 是 设计 高 速 接口 通道 、 实 现 高 速 服务 器 和 路 
由 器 的 关键 技术 之 一 。 数 据 拷贝 受制 于 传统 的 操作 系统 或 通信 协议 ， 限 制 了 通信 性 能 。 采 
用 零 找 贝 技术 ， 通 过 减少 数据 拷贝 次 数 ， 简 化 协议 处 理 的 层次 ， 在 应 用 和 网 络 间 提 供 更 快 
的 数据 通路 ， 可 以 有 效 地 降低 通信 延迟 ， 增 加 网 络 的 吞吐 率 。 


2.2.7 日 志和 检查 点 


Hadoop 中 有 两 个 非常 重要 的 文件 fsimage 和 edits， 前 面 已 经 粗略 地 介绍 了 一 些 ， 这 里 
做 一 个 详细 的 讲解 。 它 们 位 于 NameNode 的 $dfs.namenode.name.dir/current/ 文 件 夹 中 。 在 
curent 目录 中 ， 我 们 可 以 看 到 存在 大 量 的 以 edits 开头 的 文件 和 少量 的 以 fsimage 开头 的 文 
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件 ， 如 图 2-10 所 示 。 


[rootümaster current]# ls | uniq -w6 -c 
30398 edits_0000000000000000189-0000000000000000190 
2 fsimage_0000000000000000000 
1 seen txid 
1 VERSION 
[rootümaster current] J 


2-10 current 目录 


对 edits 和 fsimage 文件 的 概念 说 明 如 下 。 

(1) edits 文件 存放 的 是 Hadoop 文件 系统 的 所 有 更 新 操作 的 日 志 , HDFS 文件 系统 客户 
端 执行 的 所 有 写 操作 首先 会 被 记录 到 edits 文件 中 。 

(2) fsimage 文件 是 Hadoop 文件 系统 元 数据 的 一 个 永久 性 检查 点 , 其 中 包含 Hadoop 文 
件 系统 中 的 所 有 目录 和 文件 的 索引 节点 序列 化 信息 。 对 于 文件 来 说 ， 包 含 的 信息 有 修改 时 
间 、 访 问 时 间 、 块 大 小 信息 等 ， 对 于 目录 来 说 ， 包 含 的 信息 主要 有 修改 时 间 、 访 问 控制 权 
限 等 信息 。fsimage 并 不 包含 DataNode 的 信息 ， 而 是 包含 DataNode 上 块 的 映射 信息 ， 并 存 
放 到 内 存 中 , 当 一 个 新 的 DataNode 加 入 到 集群 中 时 , DataNode 都 会 向 NameNode 提供 块 的 
信息 ， 而 NameNode 会 定期 地 索取 块 的 信息 ， 以 使 得 NameNode 拥有 最 新 的 块 映射 。 

其 中 ，edits 负责 保存 自 最 新 检查 点 后 命名 空间 的 变化 ， 起 到 日 志 的 作用 ; 而 fsimage 
则 保存 了 最 新 的 元 数据 检查 点 信息 。 

fsimage 和 edits 文件 都 是 经 过 序列 化 的 。 在 NameNode 启动 的 时 候 ， 会 将 fsimage 文件 
中 的 内 容 加 载 到 内 存 中 ， 然 后 再 执行 edits 文件 中 的 各 项 操作 ， 使 得 内 存 中 的 元 数据 与 实际 
的 同步 。 存 在 于 内 存 中 的 元 数据 支持 客户 端的 读 操作 。 

NameNode 启动 后 ，HDFS 中 的 更 新 操作 会 重新 写 到 edits 文件 中 。 对 于 一 个 文件 来 说 ， 
当 所 有 的 写 操作 完成 以 后 ， 在 向 客户 端 发 送 成 功 代 码 之 前 ， 将 同步 更 新 edits 文件 。 在 
NameNode 运行 期 间 ， 由 于 HDFS 的 所 有 更 新 操作 都 是 直接 写 到 edits 中 的 ， 时 间 长 了 会 导 
致 edits 文件 变 得 很 大 。 

在 Hadoop 1.x 中 ， 通 过 SecondaryName 合并 fsimage 和 edits， 以 此 来 减 小 edits 文件 的 
大 小 ， 从 而 减少 了 NameNode 重启 的 时 间 。 在 Hadoop 2.x 中 ， 已 经 不 用 SecondaryName， 
通过 配置 HA 机 制 实现 ， 即 在 standby NameNode 节点 上 运行 一 个 叫 作 CheckpointerThread 
的 线程 ， 这 个 线程 调用 StandbyCheckpointer 类 的 doWork0 函 数 ， 每 隔 一 定 的 时 间 ( 可 配置 ) 
做 一 次 合并 操作 。 

edits 和 fsimage 文件 中 的 内 容 使 用 普通 文本 编辑 器 是 无 法 直接 查看 的 ， 为 此 ，Hadoop 
准备 了 专门 的 工具 ， 用 于 查看 文件 的 内 容 ， 分 别 为 oev 和 oiv. 

oev 是 offline edits viewer( 离 线 edits 查看 器 ) 的 缩写 ， 该 工具 只 操作 文件 ， 并 不 需要 
Hadoop 集群 处 于 运行 状态 。oev 提供 了 几 个 输出 处 理 器 ， 用 于 将 输入 文件 转换 为 相关 格式 
的 输出 文件 ， 可 以 使 用 参数 -p 指定 。 目 前 支持 的 输出 格式 有 binary(Hadoop 使 用 的 二 进 制 格 
式 )、xml( 在 不 使 用 参数 p 时 的 默认 输出 格式 ) 和 stats( 输 出 edits 文件 的 统计 信息 )。 由 于 没有 
与 stats 格式 对 应 的 输入 文件 ， 所 以 ， 一 旦 输出 为 stats 格式 ， 将 不 能 再 转换 为 原 有 格式 。 比 
如 输入 格式 为 binary， 输 出 格式 为 xml， 可 以 通过 将 输入 文件 指定 为 原来 的 输出 文件 ， 将 输 
出 文件 指定 为 原来 的 输入 文件 ， 实 现 binary 和 xml 的 转换 ， 而 stats 则 不 可 以 。 














«s 从 基础 理论 到 最 佳 实践 


oev 的 具体 语法 可 以 通过 在 命令 行 输入 “hdfs oev” 来 查看 ， 如 图 2-11 所 示 。 


rootümaster sbin]# hdfs oev 

Usage: bin/hdfs oev [ OPTIONS] -i INPUT FILE -o OUTPUT FILE 

offline edits viewer 

Parse a Hadoop edits log file INPUT FILE and save results 

in OUTPUT FILE. 

Required command line arguments: 

-i --inputFile «arg» edits file to process, xml (case 
insensitive) extension means XML format, 
any other filename means binary format 

l-o --outputFile «arg» Name of output file. If the specified 
file exists, it will be overwritten, 
format of the file is determined 
by -p option 


[Optional command line arguments: 

-P --processor «arg» Select which type of processor to apply 
against image file, currently supported 
processors are: binary (native binary format 
that Hadoop uses), xml (default, XML 
format), stats (prints statistics about 
edits file) 


-h, --help Display usage information and exit 
- f, -- fix- txids Renumber the transaction IDs in the input, 
so that there are no gaps or invalid transaction ID 
s. 
-r,--recover When reading binary edit logs, use recovery 


mode. This will give you the chance to skip 
corrupt parts of the edit log. 





2-11 oev 的 具体 语法 


oiv 是 offline image viewer 的 缩写 ， 用 于 将 fsimage 文件 的 内 容 转 储 到 指定 文件 中 ， 以 
便于 阅读 ， 该 工具 还 提供 了 只 读 的 WebHDFS API， 以 允许 离线 分 析 和 检查 Hadoop 集群 的 
命名 空间 。oiv 在 处 理 非常 大 的 fsimage 文件 时 是 相当 快 的， 如 果 不 能 够 处 理 fsimage， 它 会 
直接 退出 。oiv 不 具备 向 后 兼容 性 ， 比 如 使 用 Hadoop 2.4 版 本 的 oiv 不 能 处 理 hadoop 2.3 版 
本 的 fsimage， 只 能 使 用 Hadoop 2.3 版 本 的 oiv。 与 oev 一 样 ，oiv 也 不 需要 Hadoop 集群 处 
于 运行 状态 。oiv 的 具体 语法 可 以 通过 在 命令 行 输入 “hdfs oiv” 来 查看 。 

如 果 fsimage 丢失 或 者 损坏 了 ， 我 们 将 失去 文件 到 块 的 映射 关系 ， 也 就 无 法 使 用 
DataNode 上 的 所 有 数据 了 。 因 此 ， 定 期 及 时 地 备份 fsimage 和 edits 文件 非常 重要 。 

fsimage 和 editlog 是 HDFS 的 核心 数据 结构 。 这 些 文件 的 损坏 会 导致 整个 集群 的 失效 。 
因此 ，NameNode 可 以 配置 成 支持 多 个 fsimage 和 edit log 的 副本 。 任 何 fsimage 和 edit log 
的 更 新 都 会 同步 到 每 一 份 副本 中 。 同 步 更 新 多 个 edit log 副本 会 降低 NameNode 的 命名 空间 
事务 处 理 速率 。 但 是 这 种 降低 是 可 以 接受 的 ， 因 为 HDFS 程序 中 大 量 产生 的 是 数据 请 求 ， 
而 不 是 元 数据 请 求 。NameNode 重新 启动 时 ， 会 选择 最 新 一 致 的 fsimage 和 edit log. 


2.28 HDFS 快照 


在 Hadoop 2.x 版 本 中 ，HDFS 提供 了 支持 元 数据 快照 的 解决 方案 。 

快照 (Snapshot) 支 持 存 储 在 某 个 时 间 的 数据 复制 ， 当 HDFS 数据 损坏 时 ， 可 以 回 深 到 过 
去 一 个 已 知 正确 的 时 间 点 。 

快照 分 为 两 种 : 一 种 是 建立 文件 系统 的 索引 ， 每 次 更 新 文件 不 会 真正 改变 文件 ， 而 是 
新 开辟 一 个 空间 用 来 保存 更 改 的 文件 ; 一 种 是 复制 所 有 的 文件 系统 。HDFS 把 元 数据 和 数据 
分 离 ， 元 数据 被 存储 在 单独 的 NameNode 上 ， 实 际 的 数据 被 复制 并 扩散 到 整个 集群 。 使 用 
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单个 节点 来 管理 元 数据 ， 使 我 们 能 够 使 用 一 个 单一 的 逻辑 时 钟 ， 建 立 元 数据 快照 。 

HDFS 的 快照 是 在 某 一 时 间 点 对 指定 文件 系统 复制 , 可 以 是 整个 文件 系统 的 ,也 可 以 是 
文件 系统 的 一 部 分 。 快 照 采 用 只 读 模 式 ， 对 重要 数据 进行 恢复 、 防 止 用 户 错误 性 的 操作 。 
HDFS 的 快照 有 以 下 特征 。 

(1) 快照 的 创建 是 瞬间 的 ， 代 价 为 O(1)， 取 决 于 子 节点 扫描 文件 目录 的 时 间 。 

D 当 且 仅 当 快照 的 文件 目录 下 有 文件 更 新 时 ， 才 会 占用 小 部 分 内 存 ， 占 用 内 存 的 大 
小 为 O(M)， 其 中 ，M 为 更 改 文 件 或 者 目录 的 数量 。 

(3) 新 建 快照 时 ，DataNode 中 的 block 不 会 被 复制 ， 快 照 中 只 是 记录 了 文件 块 的 列表 
和 大 小 等 信息 。 

(4) 快照 不 会 影响 正常 文件 系统 的 读 写 等 操作 。 对 做 快照 之 后 的 数据 进行 的 更 改 将 会 
按照 时 间 顺 序 逆序 记录 下 来 ， 用 户 访问 的 还 是 当前 最 新 的 数据 ， 快 照 里 的 内 容 为 快照 创建 
的 时 间 点 时 文件 的 内 容 减 去 当前 文件 的 内 容 。 


2.3 HDFS 的 数据 存储 


前 面 主要 介绍 了 HDFS 系统 的 运行 机 制 和 原理 ， 本 节 将 介绍 HDFS 系统 中 的 文件 数据 
是 如 何 存储 和 管理 的 。 


2.3.1 数据 完整 性 


VO 操作 过 程 中 ,难免 会 出 现 数据 丢失 或 脏 数据 ,数据 传输 的 量 越 大 , 出 错 的 概率 越 高 。 
校 验 错误 最 常用 的 办 法 ， 就 是 传输 前 计算 一 个 校 验 和 ， 传 输 后 计算 一 个 校 验 和 ， 两 个 校 验 
和 如 果 不 相 同 ， 就 说 明 数 据 存在 错误 。 为 了 保证 数据 的 完整 性 ， 一 般 采 用 下 列 数据 校 验 技 
术 : 奇偶 校 验 技术 ; @MD5、SHA1 等 校 验 技术 ; OCRC-32 循环 元 余 校 验 技术 ; OECC 
内 存 纠 错 校 验 技术 。 其 中 ， 比 较 常 用 的 错误 校 验 码 是 CRC-32。 

HDFS 将 一 个 文件 分 割 成 一 个 或 多 个 数据 块 ， 这 些 数据 块 被 编号 后 ， 由 名 字 节 点 保存 ， 
通常 需要 记录 的 信息 包括 文件 的 名 称 、 文 件 被 分 成 多 少 块 、 每 块 有 多 少 个 副本 、 每 个 数据 
块 存放 在 哪个 数据 节点 上 、 其 副本 存放 于 哪些 节点 上 ， 这 些 信息 被 称 为 元 数据 。 

HDFS 为 了 保证 数据 的 完整 性 ， 采 用 校 验 和 (checksum) 检 测 数据 是 否 损坏 。 当 数据 第 一 
次 引入 系统 时 计算 校 验 和 ， 并 且 在 一 个 不 可 靠 的 通道 中 传输 的 时 候 ， 再 次 检验 校 验 和 。 但 
是 ， 这 种 技术 并 不 能 修复 数据 (注意 : 校 验 和 也 可 能 损坏 ， 但 是 ， 由 于 校 验 和 小 得 多 ， 所 以 
可 能 性 非常 小 )。 数 据 校 验 和 采用 的 是 CRC-32, 任何 大 小 的 数据 输入 都 可 以 通过 计算 , 得 出 
一 个 32 位 的 整数 校 验 和 。 

DataNode 在 接收 到 数据 后 存储 该 数据 及 其 校 验 和 ， 或 者 将 数据 和 校 验 和 复制 到 其 他 的 
DataNode 上 。 当 客户 端 写 数据 时 ， 会 将 数据 及 其 DataNode 发 送 到 DataNode 组 成 的 管线 ， 
最 后 一 个 DataNode 负责 验证 校 验 和 ， 如 果 有 损坏 ， 则 抛 出 ChecksumException， 这 个 异常 
属于 IOException 的 子 类 。 客 户 端 读 取 数 据 的 时 候 ， 也 会 检验 校 验 和 ， 会 与 DataNode 上 的 
校 验 和 进行 比较 。 每 个 DataNode 上 面 都 会 有 一 个 用 于 记录 校 验 和 的 日 志 。 客 户 端 验 证 完 之 
后 ， 会 告诉 DataNode， 然 后 更 新 这 个 日 志 。 
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不 仅 客 户 端 在 读 写 数 据 的 时 候 验 证 校 验 和 ， 每 个 DataNode 也 会 在 后 台 运 行 一 个 
DataBlockScanner， 从 而 定期 检查 存储 在 该 DataNode 上 面 的 数据 块 。 

如 果 客 户 端 发 现 有 block 坏 掉 ， 按 照 以 下 步骤 进行 恢复 。 

(1) 客户 端 在 抛 出 ChecksumException 之 前 ,会 把 坏 的 block 和 block 所 在 的 DataNode 

告 给 NameNode。 

(2) NameNode 把 这 个 block 标记 为 已 损坏 ， 这 样 ，NameNode 就 不 会 把 客户 端 指向 这 
个 block， 也 不 会 复制 这 个 block 到 其 他 的 DataNode。 

(3) NameNode 会 把 一 个 好 的 block 复制 到 另外 一 个 DataNode。 

(4) NameNode 把 坏 的 block 删除 。 

HDFS 会 存储 每 个 数据 块 的 副本 ,可 以 通过 数据 副本 来 修复 损坏 的 数据 块 。 客户 端 在 读 
取 数 据 块 时 ， 如 果 检 测 到 错误 ， 首 先 向 NameNode 报告 已 损坏 的 数据 块 及 其 正在 尝试 读 取 
操作 的 这 个 DataNode。 NameNode 会 将 这 个 数据 块 标记 为 已 损坏 ， T 
被 NameNode 安排 到 另 一 个 副本 上 。 之 后 ， 它 安排 这 个 数据 块 的 另 一 个 副本 复制 到 另 一 
DataNode 上 ， 如 此 ， NUMBER LAANE, 此 后 ， CHE AER AREA A 
删除 。 

Hadoop 的 LocalFileSystem 执行 客户 端的 校 验 和 验证 。 当 写 入 一 个 名 为 人 lename 的 文件 
时 ， 文 件 系 统 客户 端 会 明确 地 在 包含 每 个 文件 块 校 验 和 的 同一 个 目录 内 建立 一 个 名 为 
filename.crc 的 隐藏 文件 。 


2.3.0 ”数据 压缩 


Hadoop 作为 一 个 较 通用 的 海量 数据 处 理 平台 ， 每 次 运算 都 会 需要 处 理 大 量 的 数据 。 使 
用 文件 和 数据 压缩 技术 有 明显 的 优点 : 节省 数据 占用 的 磁盘 空间 ，@@ 加 快 数据 在 磁盘 和 
网 络 中 的 传输 速度 ， 从 而 提高 系统 的 处 理 速 度 。 我 们 来 了 解 一 下 Hadoop 中 的 文件 压缩 。 

Hadoop 支持 多 种 压缩 格式 。 我 们 可 以 把 数据 文件 压缩 后 再 存 入 HDFS， 以 节省 存储 空 
间 。 在 表 2-2 中 ， 列 出 了 几 种 压缩 格式 。 


3k2-2 Hadoop 中 的 压缩 格式 





. deflate 





-gz 

.zip 
.bz2 
.lzo 


所 有 的 压缩 算法 都 存在 空间 与 时 间 的 权衡 : 更 快 的 压缩 速率 和 解压 速率 是 以 牺牲 压缩 
率 为 代价 的 。 Deflate 算法 是 同时 使 用 了 LZ77 与 哈 夫 曼 编 码 的 一 个 无 损 数据 压缩 算法 , 源 代 
码 可 以 在 zlib 库 中 找到 。Gzip 算法 是 以 Deflate 算法 为 基础 扩展 出 来 的 一 种 算法 。Gzip 在 时 
间 和 空间 上 比较 适中 ，Bzip2 算法 压缩 比 Gzip 更 有 效 ， 但 速度 更 慢 。Bzip2 的 解压 速度 比 它 
的 压缩 速度 要 快 ， 但 与 其 他 压缩 格式 相 比 ， 又 是 最 慢 的， 但 压缩 效果 明显 是 最 好 的 。 
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使 用 压缩 ， 有 两 个 比较 麻烦 的 地 方 : 第 一 ， 有 些 压缩 格式 不 能 被 分 块 、 并 行 地 处 理 ， 
比如 Gzip; 第 二 ， 另 外 的 一 些 压缩 格式 虽然 支持 分 块 处 理 ， 但 解压 的 过 程 非常 缓慢 ， 使 作 
业 瓶 颈 转移 到 了 CPU 上 ， 例 如 Bzip2。LZO 是 一 种 既 能 够 被 分 块 并 且 并 行 处 理 速度 也 非常 
快 的 压缩 算法 。 在 Hadoop 中 ， 使 用 LZO 压缩 算法 可 以 减 小 数据 的 大 小 并 缩短 数据 的 磁盘 
读 写 时 间 ， 在 HDFS 中 存储 压缩 数据 ， 可 以 使 集群 能 保存 更 多 的 数据 ， 延 长 集群 的 使 用 寿 
命 。 不 仅 如 此 ， 由 于 MapReduce 作业 通常 瓶颈 都 在 VO 上 ， 存 储 压缩 数据 就 意味 着 更 少 的 
VO 操作 ， 作 业 运 行 更 加 高 效 。 例 如 ， 将 压缩 文件 直接 作为 入 口 参数 交 给 MapReduce 处 理 ， 
MapReduce 会 自动 根据 压缩 文件 的 扩展 名 来 自动 选择 合适 的 解压 器 处 理 数据 。 处 理 流程 如 
2-12 所 示 。 





B 
B 


























Æ 2-12 MapReduce 的 压缩 框架 


LZO 的 压缩 文件 是 由 许多 小 的 blocks 组 成 ( 约 256KB)， 使 得 Hadoop 的 作业 可 以 根据 
block 的 划分 来 分 块 工作 (splitjob)。 不 仅 如 此 ，LZO 在 设计 时 就 考虑 到 了 效率 问题 ， 它 的 解 
压 速度 是 Gzip 的 两 倍 ， 这 就 让 它 能 够 节省 很 多 的 磁盘 读 写 ， 它 的 压缩 比 不 如 Gzip， 大 约 压 
缩 出 来 的 文件 比 Gzip 压缩 的 大 一 半 , 但 是 , 这 仍然 比 没有 经 过 压缩 的 文件 要 节省 2096-5096 
的 存储 空间 ， 这 样 ， 就 可 以 在 效率 上 大 大 地 提高 作业 执行 的 速度 。 

在 考虑 如 何 压 缩 由 MapReduce 程序 将 要 处 理 的 数据 时 ， 压 缩 格 式 是 否 支持 分 割 是 很 重 
要 的 。 比 如 ,存储 在 HDFS 中 的 未 压缩 的 文件 大 小 为 1GB，HDFS 的 块 大 小 为 64MB， 所 以 
该 文件 将 被 存储 为 16 块 ,将 此 文件 用 作 输 入 的 MapReduce 作业 ,会 创建 1 个 输入 分 片 (split， 
也 称 为 “分 块 ”。 对 应 block， 我 们 统一 称 为 “ 块 ”)， 每 个 分 片 都 被 作为 一 个 独立 map 任 
务 的 输入 ， 单 独 进行 处 理 。 

现在 假设 该 文件 是 一 个 Gzip 格式 的 压缩 文件 ,压缩 后 的 大 小 为 1GB。 与 前 面 一 样 ,HDFS 
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将 此 文件 存储 为 16 块 。 然 而 ， 针 对 每 一 块 创建 一 个 分 块 是 没有 用 的 ， 因 为 不 可 能 从 Gzip 
数据 流 中 的 任意 点 开始 读 取 ，map 任务 也 不 可 能 独立 于 其 他 分 块 只 读 取 一 个 分 块 中 的 数据 。 
Gzip 格式 使 用 Deflate 算法 来 存储 压缩 过 的 数据 , Deflate 将 数据 作为 一 系列 压缩 过 的 块 进行 
存储 。 但是， 每 块 的 开始 没有 指定 用 户 在 数据 流 中 任意 点 定位 到 下 一 个 块 的 起 始 位 置 ， 而 
是 其 自身 与 数据 流 同 步 。 因 此 ，Gzip 不 支持 分 割 ( 块 ) 机 制 。 

在 这 种 情况 下 ，MapReduce 不 分 割 Gzip 格式 的 文件 ， 因 为 它 知道 输入 是 Gzip 压缩 格 
式 的 (通过 文件 扩展 名 得 知 )， 而 Gzip 压缩 机 制 不 支持 分 割 机 制 。 这 样 是 以 牺牲 本 地 化 为 代 
价 的 : 一 个 map 任务 将 处 理 16 个 HDFS 块 。 大 都 不 是 map 的 本 地 数据 。 与 此 同时 ， 因 为 
map 任务 少 ， 所 以 作业 分 割 的 粒度 不 够 细 ， 从 而 导致 运行 时 间 变 长 。 

在 我 们 假设 的 例子 中 ， 如 果 是 一 个 LZO 格式 的 文件 ， 我 们 会 遇 到 同样 的 问题 ， 因 为 基 
本 压缩 格式 不 为 reader 提供 方法 使 其 与 流 同 步 。 但 是 ，Bzip2 格式 的 压缩 文件 确实 提供 了 块 
与 块 之 间 的 同步 标记 (一 个 48 位 的 PEI 近似 值 )， 因 此 它 支 持 分 割 机 制 。 

对 于 文件 的 收集 ， 这 些 问 题 会 稍 有 不 同 。Zip 是 存档 格式 ， 因 此 ， 它 可 以 将 多 个 文件 合 
并 为 一 个 Zip 文件 。 每 个 文件 单独 压缩 ， 所 有 文档 的 存储 位 置 存储 在 Zip 文件 的 尾部 。 这 个 
属性 表明 Zip 文 件 支持 文件 边界 处 分 割 , 每 个 分 片 中 包括 Zip 压缩 文件 中 的 一 个 或 多 个 文件 。 


2.3.3 序列 化 


序列 化 是 指 将 结构 化 对 象 转换 成 字 节 流 ， 以 便于 进行 网 络 传输 ， 或 写 入 持久 存储 的 过 
程 。 与 之 相对 的 反 序 列 化 ， 就 是 将 字 节 流 转化 为 一 系列 结构 化 对 象 的 过 程 。 

(1) 序列 化 有 以 下 特征 。 

e "WU 可 以 充分 利用 稀缺 的 带宽 资源 。 

e ”快速 : 通信 时 大 量 使 用 序列 化 机 制 ， 因 此 ， 需 要 减少 序列 化 和 反 序列 化 的 开销 。 

e jjj: 随 着 通信 协议 的 升级 而 可 升级 。 

e HRE: 支持 不 同 开发 语言 的 通信 。 

(2) 序列 化 的 主要 作用 如 下 : 

@ ”作为 一 种 持久 化 格式 。 

e “作为 一 种 通信 的 数据 格式 ， 支 持 不 同 开发 语言 的 通信 。 

e “作为 一 种 数据 拷贝 机 制 。 

Hadoop 的 序列 化 机 制 与 Java 的 序列 化 机 制 不 同 ， 它 实现 了 自己 的 序列 化 机 制 ， 将 对 象 
序列 化 到 流 中 ,值得 一 提 的 是 ，Java 的 序列 化 机 制 是 不 断 地 创建 对 象 ， 但 在 Hadoop 的 序列 
化 机 制 中 ， 用 户 可 以 复 用 对 象 ， 减 少 了 Java 对 象 的 分 配 和 回收 ， 提 高 了 应 用 效率 。 

在 分 布 式 系统 中 ， 进 程 将 对 象 序列 化 为 字 节 流 ， 通 过 网 络 传输 到 另 一 进程 ， 另 一 进程 
接收 到 字 节 流 ， 通 过 反 序列 化 ， 转 回 到 结构 化 对 象 ， 以 实现 进程 间 通 信 。 在 Hadoop 中 ， 
Mapper, Combiner, Reducer 等 阶段 之 间 的 通信 都 需要 使 用 序列 化 与 反 序列 化 技术 。 举 例 来 
说 ,Mapper 产生 的 中 间 结 果 <key: valuel, value2...> 需 要 写 入 到 本 地 硬盘 ,这 是 序列 化 过 程 (将 
结构 化 对 象 转化 为 字 节 流 ， 并 写 入 硬盘 )， 而 Reducer 阶段 ， 读 取 Mapper 的 中 间 结 果 的 过 程 
则 是 一 个 反 序列 化 过 程 ( 读 取 硬盘 上 存储 的 字 节 流 文件 ， 并 转 回 为 结构 化 对 象 )。 需 要 注意 的 
是 ， 能 够 在 网 络 上 传输 的 只 能 是 字 节 流 ，Mapper 的 中 间 结 果 在 不 同 主机 间 洗 牌 时 ， 对 象 将 
经 历 序列 化 和 反 序 列 化 两 个 过 程 。 
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序列 化 是 Hadoop 核心 的 一 部 分 ,在 Hadoop 中 , 位 于 org.apache hadoop.io 包 中 的 Writable 
接口 是 Hadoop 序列 化 格式 的 实现 ，Writable 接口 提供 两 个 方法 : 


public interface Writable ( 
void write(DataOutput out) throws IOException; 
void readFields(DataInput in) throws IOException; 
} 


不 过 ， 没 有 提供 比较 功能 ， 需 要 进行 比较 的 话 ， 要 实现 WritableComparable 接口 : 


public interface WritableComparable«T» extends Writable, Comparable«T» 


Hadoop 的 Writable 接口 是 基于 DataInput 和 DataOutput 实现 的 序列 化 协议 ， 紧 凑 ( 高 效 
使 用 存储 空间 )、 快 速 ( 读 写 数 据 、 序 列 化 与 反 序 列 化 的 开销 小 )。 

Hadoop 中 的 键 (key) 和 值 (value) 必 须 是 实现 了 Writable 接口 的 对 象 ( 键 还 必须 实现 
WritableComparable， 以 便 进行 排序 )。 

Hadoop 自身 提供 了 多 种 具体 的 Writable 类 ,包含 了 常见 的 Java 基本 类 型 (boolean、byte、 
short, int, float, long 和 double 等 ) 和 集合 类 型 (BytesWritable、ArrayWritable 和 MapWritable 
等 )， 如 图 2-13 所 示 。 


Others 


Primitives 
BooleanWritable NullWritable 










«interface» 
WritableComparable 










AbstractMapWritable ,< MapWritable 


SortedMapWritable 


图 2-13 ”Writable 接口 


Text: Text 是 UTF-8 的 Writable， 可 以 理解 为 与 java.lang.String 相 类 似 的 Writable。 
Text 类 替代 了 UTF-8 类 。Text 是 可 变 的 ， 其 值 可 以 通过 调用 set() 方 法 来 改变 。 最 大 可 
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以 存储 2GB 的 大 小 。 

NullWritable: NullWritable 是 一 种 特殊 的 Writable 类 型 ， 它 的 序列 化 长 度 为 零 ， 可 以 
用 作 占 位 符 。 

BytesWritable: BytesWritable 是 一 个 二 进 制 数据 数组 封装 , 序列 化 格式 是 一 个 int 字段 。 
BytesWritable 是 可 变 的， 其 值 可 以 通过 调用 set( 方 法 来 改变 。 

ObjectWritable: ObjectWritable 适用 于 字段 使 用 多 种 类 型 时 。 

ArrayWritable 和 TwoDArrayWritable 是 针对 数组 和 二 维 数组 的 。 

MapWritable 和 SortedMapWritable 是 针对 Map 和 SortMap 的 。 

虽然 Hadoop 内 建 了 多 种 Writable 类 供用 户 选择 ，Hadoop 对 Java 基本 类 型 的 包装 
Writable 类 实现 的 RawComparable 接口 ， 使 得 这 些 对 象 不 需要 反 序列 化 过 程 ， 便 可 以 在 字 
节 流 层面 进行 排序 ， 从 而 大 大 缩短 了 比较 的 时 间 开 销 。 但 是 ， 当 我 们 需要 更 加 复杂 的 对 象 
时 ，Hadoop 的 内 建 Writable 类 就 不 能 满足 我 们 的 需求 了 (需要 注意 的 是 Hadoop 提供 的 
Writable 集合 类 型 并 没有 实现 RawComparable 接口 ， 因 此 也 不 满足 我 们 的 需要 )， 这 时 ,我 
们 就 需要 定制 自己 的 Writable 类 ， 特 别 在 将 其 作为 键 (key) 的 时 候 更 应 该 如 此 ， 以 求实 现 更 
高 效 的 存储 和 快速 的 比较 。 


24 ”HDFS 的 安装 和 配置 


HDFS 通过 一 个 NameNode 作为 master 来 统筹 管理 多 个 作为 slaves 的 DataNode， 是 
Hadoop 的 核心 功能 组 件 。 安 装 完 Hadoop 后 ， 即 完成 了 HDFS 的 安装 。HDFS 为 分 布 式 计 
算 存储 提供 了 底层 支持 ， 功 能 及 用 法 类 似 于 本 地 文件 系统 。 


2.4.1 Hadoop 的 安装 


HDFS 是 Hadoop 的 核心 项 目 ， 安 装 程序 已 经 包含 在 Hadoop 核心 程序 包 中 ， 从 一 定 意 
义 上 讲 ，HDFS 的 安装 配置 与 Hadoop 是 一 致 的 。 

Hadoop 集群 安装 主要 有 以 下 工作 。 

1. 准备 工作 

(1) 首先 从 官网 下 载 一 个 Hadoop 程序 包 。 一 般 Hadoop 分 为 两 个 压缩 文件 ， 一 个 是 源 
代码 ， 一 个 是 编译 好 的 程序 包 。 用 户 可 根据 需要 选择 不 同 的 版 本 下 载 安装 。 

(2) 安装 Linux 服务 器 和 必要 的 软件 。 Hadoop 既 可 以 支持 单 台 服 务 器 的 伪 分 布 式 部 署 ， 
也 可 以 多 台 集 群 配置 部 署 。 必 有 需 的 软件 主要 有 Java. SSH 等 。 

(3) 对 Linux 进行 必要 的 系统 配置 。 如 主机 名 、DNS、 环 境 变量 等 。 

2. 安装 Java 并 配置 SSH 无 密码 访问 

通过 配置 SSH 实现 基于 公 钥 方式 的 无 密码 登录 ,具体 操作 步骤 为 :创建 一 个 新 的 hadoop 
账户 ， 生 成 这 个 账户 的 SSH 公 钥 ， 配 置 公 钥 授 权 文 件 及 设置 SSH 服务 登录 方式 等 。 





第 2 章 HDFS 文件 系统 


3. 解压 安装 Hadoop 安装 包 

将 安装 软件 解压 到 集群 内 的 所 有 机 器 上 。 

通常 ， 安 装 路 径 要 一 致 ， 一 般 用 HADOOP_HOME 指 代 安 装 的 根 路 径 ， 集 群 里 的 所 有 
机 器 的 HADOOP HOME 路 径 相同 。 

如 果 集 群 内 机 器 的 环境 完全 一 样 ， 可 以 在 一 台 机 器 上 配置 好 ， 然 后 将 整个 文件 夹 描 贝 
到 其 他 机 器 的 相同 位 置 即 可 。 

4. 配置 hadoop-env.sh 文件 

包含 Hadoop 启动 的 时 候 配 置 的 环境 变量 ， 包 括 Hadoop 自身 配置 、JDK 等 的 设置 。 

5. BOB core-site.xml, hdfs-site.xml, mapred-site.xml 等 文件 

配置 信息 将 在 后 面 详细 介绍 。 

6. 格式 化 HDFS 文件 系统 

这 类 似 于 Windows 文件 系统 使 用 前 需要 格式 化 。 

7. 启动 所 有 节点 并 测试 

本 章 中 ,我 们 将 下 载 使 用 Hadoop 2.6.0 版 本 ,在 CentOS 6.5 上 分 别 搭建 伪 分 布 式 环境 ( 即 
在 单独 的 一 台 服 务 器 上 安装 运行 所 有 的 Hadoop 功能 组 件 ) 和 集群 环境 作为 实验 平台 。 

Q) 伪 分 布 式 部 署 。 

中 ”安装 CentOS 6.5 操作 系统 ， 如 图 2-14 所 示 。 




















ERRERA: 322 1 1268 


安装 java-1.6.0-openjdk-javadoc-1.6.0.0-1.66.1.13.0.016.x86_64 (215 M8) 
OpenjDK API Documentation 


2-14. 安装 CentOS 操作 系统 








Q) 检查 Java 安装 情况 ， 如 图 2-15 所 示 。 如 未 安装 ， 可 用 rpm 包 或 者 yum 等 方式 安 
装 Java。 这 里 ， 我 们 使 用 Java 1.7 版 本 。 























Y 


rootühadoop ~]# rpm -qa | grep java 
[java- 1. 6. 0- openjdk- javadoc-1. 6. 0. 0-1. 66. 1. 13. 0. ele. x86 64 
lecLipse-mylyn- java-3. 4. 2-9. el6. x86 64 
[java-1. 6. 0- openjdk-1. 6. 0. 0-1. 66. 1. 13. 0. el6. x86 64 


lant- javamail-1.7. 1-13. el6. x86 64 
[java-1. 5. 0-gcj-1. 5. 0. 0-29. 1. el6. x86 64 
[java-1. 7. 0- openj 0. 45-2. 4. 3. 3. el6. x86. 64 





[java- 1. 6. 0- openjdk-devel-1. 
| pg- java- compat- 1. 1. 0-4. 1. el6. noarch 
Isubversion- javahl-1.6. 11-9. elé 4. x86 64 
[java-1. 7. 0- openjdk-devel-1. 7. 0. 45-2. 4. 3. 3. el6. x86. 64 
Itzdata- java-2013g-1. el6. noarch 
[java cup-0. 10k-5. ele. x86 64 

rootühadoop ~]# M 


2-15 Java 安装 包 


© 修改 hosts 文件 ， 设 置 主机 名 。 在 hosts 文件 最 后 ， 加 入 一 行 主机 名 与 IP 地 址 ， 如 
图 2-16 所 示 。 









rootühadoop ~]# cat /etc/hosts 
127.0.0.1 localhost localhost. localdomain localhost4 localhost4. Localdomain4 
p:1 localhost localhost. localdomain Locathost6 localhosté. Localdomaino 


2. 168. 150. 128 hadoop. test 
'ootühadoop ~]# hostname 
lhadoop. test. 

rootühadoop -1# Bj 


2-16 hosts 文件 


@ 使 用 useradd 命令 创建 “hadoop” 用 户 ， 登 录 并 配置 SSH 无 密码 登录 ， 如 图 2-17 
所 示 。 


hadoopühadoop -]$ ssh-keygen -t rsa 
nerating public/private rsa key pair. 
[Enter file in which to save the key (/home/hadoop/. ssh/id rsa): 
lEnter passphrase (empty for no passphrase): 
|Enter same passphrase again: 
|Your identification has been saved in /home/hadoop/. ssh/id rsa. 
|Your public key has been saved in /home/hadoop/. ssh/id rsa. pub. 
ie key fingerprint is: 
4: 23: 44: 28: ce: Qa: ae: 9a: 71: 63: ff: 4b: be: 57: a0: 84. hadoopthadoop. test 
e key s randomart image is: 
|+--[ RSA 2048] ----* 











2-17 配置 SSH 


进入 .ssh 目录 ， 将 id rsapub 复制 ， 并 且 命 名 为 “authorized keys”， 然 后 设置 文件 权 
限 ， 如 图 2-18 所 示 。 


[hadoopeh .ssh]$ cp id rsa.pub authorized keys 
[hadoop@h .ssh]$ chmod 600 authorized keys 
[hadoopéh .ssh]$ ls 

authorized keys id rsa id rsa.pub 

[hadoopeh .ssh]$ $ 


2-18 设置 文件 权限 


© 将 Hadoop 安装 包 解压 到 要 安装 的 路 径 中 。 这 里 ， 将 Hadoop 安装 在 /home/hadoop/ 
用 户 目录 下 。 
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© 配置 环境 变量 。 在 /etc/profile 文件 中 配置 Java 及 Hadoop 相关 的 环境 变量 ， 并 使 之 
生效 。 如 图 2-19 所 示 。 


unset i 
lunset -f pathmunge 


xport JAVA HOME-/usr/ Lib/ jvm/ java- 1. 7. 0- openjdk-1. 7. 0. 45. x86 64 
xport CLASSPATH-. : $JAVA HOME/ j re/ Lib/rt. jar: $JAVA HOME/ib/dt. jar: $JAVA HOME/lib/tools. jar 
xport PATH-S$PATH: JAVA HOME/bin 


xport HADOOP HOME-/home/hadoop/hadoop 
xport PATH-$|PATH): $(HADOOP. HOME) /bin: $ (HADOOP HOME]/sbin 
rootühadoop hadoop]# source /etc/profile 


2-19 配置 环境 变量 


© 配置 Hadoop 安装 文件 中 的 环境 变量 。 
配置 etc/hadoop/hadoop-env.sh 文件 ， 如 图 2-20 所 示 。 


The java implementation to Use. 
export JAVA HOME-$ | JAVA HOME) 
lexport JAVA HOME-/usr/lib/ jvm/ java-1. 7. 0- openjdk-1. 7. 0. 45. x86. 64 


2-20 etc/hadoop/hadoop-env.sh 文件 


配置 etc/hadoop/core-site.xml 文件， 加 入 如 图 2-21 所 示 的 内 容 。 


<t-- Put site-specific property overrides in this file, --> 


«configuration» 
«property» 
«name»hadoop. tmp. dir</nase> 
«value» /hone/hadoop/hadoop/tmp« / value» 
</property> 
<property> 
«nane»fs.defaultFS-/nase» 
«value»hdfs: //hadoop. test :9000-/value» 
</property> B 
«configuration» 


2-231 ME etc/hadoop/core-site.xml 文件 


配置 etc/hadoop/hdfs-site.xml 文件 ， 加 入 如 图 2-22 所 示 的 内 容 。 


1-- Put site-specific property overrides in this file. --> 


[configuration> 

<property> 
<name>dfs. replication</nane> 
<value>3</value> 

</property> 

<property> 
<nane>dfs .namenode.name.dir</nase> 
<value>file:/home/hadoop/hadoop/dfs/name</value> 

</property> 

<property> 
«nane»dfs .datanode. data. dir«/name» 
«value»file:/home/hadoop/hadoop/dfs/data-/value» 

</property> 

<property> 
«nane»dfs.permissionsc/name» 
«value»falsec/value» 

</property> 

<property> 
<name>dfs.webhdfs.enabled</name> 
<value>true</value> 

</property> 


</configuration> 


2-22 配置 etc/hadoop/hdfs-site.xml 文 件 


«a 从 基础 理论 到 最 佳 实践 


配置 etc/hadoop/slaves， 加 入 DataNode 节点 ， 即 当前 主机 名 ， 如 图 2-23 所 示 。 


hadoop@hadoop hadoop]$ vim slaves 
hadoop@hadoop hadoop]$ cat slaves 
hadoop. test 

hadoopühadoop hadoopl$ B 


图 2-23 配置 etc/hadoop/slaves 


在 服务 器 上 创建 目录 /home/hadoop/hadoop/tmp、/home/hadoop/hadoop/dfs/name、 
/home/hadoop/hadoop/dfs/data， 并 赋予 读 写 权限 。 

至 此 ， 基 于 单 台 服务 器 的 Hadoop 伪 集 群 安装 部 署 完成 ， 启 动 运行 即 可 。 

Q) 集群 部 署 。 

分 布 式 集群 部 署 与 单机 Hadoop 类 似 ， 流 程 上 稍微 复杂 一 些 。 我 们 以 安装 包括 1 个 
NameNode 和 3 个 DataNode 的 Hadoop 集群 为 例 。 配 置 见 表 2-3. 


表 2-3 Hadoop 集群 配置 


节点 名 称 p—— 6 1 说 明 
hmaster 
hslavel 
halavez 
hslave3 


(D 在 各 个 节点 安装 CentOS 6.5 操作 系统 ， 安 装 Java. SSH 等 软件 ， 配 置 允许 SSH 通 
过 防火 墙 或 者 直接 关闭 各 个 主机 的 防火 墙 ， 添 加 名 为 “hadoop ”的 Linux 用 户 ; 修改 
“/etc/sysconfig/network” 中 的 hostname 设置 。 

© 配置 各 个 主机 的 卫 ， 并 修改 “/etc/hosts” 文 件 ， 将 每 个 节点 的 主机 名 写 入 到 hosts 
文件 中 进行 解析 ， 如 图 2-24 所 示 。 


[root@h hadoop]# cat /etc/hosts 
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 
:1 localhost localhost.localdomain localhost6 localhost6.localdomain6 





192.168.150.129 h.master 
192.168.150.130 h.slavel 
192.168.150.131 h.slave2 
[192.168.150.132 h.slave3 
[root@h hadoop]& B 


2-24 修改 “/etc/hosts” 文 件 


© 配置 SSH 无 密码 登录 。 首 先 在 各 个 节点 的 hadoop 用 户 下 创建 密 钥 , 然后 将 4 个 节 
点 的 公 钥 文件 id rsa.pub 的 内 容 放 到 authorized_keys 文件 里 ， 并 设置 文件 权限 。 最 后 测试 节 
点 之 间 是 否 能 够 通过 SSH 互相 连通 ， 如 图 2-25 所 示 。 
®© 将 Hadoop 安装 包 解压 到 要 安装 的 路 径 中 。 这 里 ， 我 们 将 Hadoop 安装 在 用 户 目录 
* /home/hadoop/" FH.» 
© 配置 环境 变量 。 在 所 有 节点 的 “/etc/profile” 文 件 中 配置 Java 及 Hadoop 相关 的 环 
境 变量 ， 并 使 之 生效 ， 如 图 2-26 所 示 。 




















第 2 章 HDFS 文件 系统 qu 


[hadoopgh -]$ ssh h.master 
The authenticity of host 'h.master (192.168.159.129)' can't be established. 

RSA key fingerprint is ab:71:78:f1:e8:79:66:68:b2:88:b1:1d:28:21:ce:c0. 

Are you sure you want to continue connecting (yes/no)? yes 

Warning: Permanently added 'h.master,192.163.150.129' (RSA) to the list of known hosts. 
Last login: Sat Apr 9 21:13:27 2016 from h.master 

[hadoop@h -]$ exit 

logout 

Connection to h.master closed. 

[hadoopgh -]$ ssh h.slavel 

The authenticity of host 'h.stavel (192.168.153.130)' can't be established. 

RSA key fingerprint is 1f:ae:4f:24:4a:df:19:06: :f1:1a:e8:6d:c6:c2. 

Are you sure you want to continue connecting (yes/no)? yes 

Warning: Permanently added 'h.slave1,192.163.150.130' (RSA) to the list of known hosts. 
Last login: Sat Apr 9 21:17:08 2016 from h.master 

[hadoopéh ~]$ exit 

logout 

Connection to h.slavel closed. 

ThadoopGh -]$ ssh h.slave2 

The authenticity of host 'h.slave2 (192.168.159.131)' can't be established. 

RSA key fingerprint is 46:d6:94:D4:T9:be:d8: :44:36:19:57:6a. 

Are you sure you want to continue connecting (yes/no)? yes 

Warning: Permanently added 'h.slave2,192.163.150.131' (RSA) to the list of known hosts. 
[hadoopeh ~]$ exit 

logout 

Connection to h.slave2 closed. 

[hadoop@h -]$ ssh h.slave3 

The authenticity of host 'h.slave3 (192.168.159.132)' can't be established. 

RSA key fingerprint is 81:b2:66:ed:ed:33:c6:58:[1:a7:6a:9b:3:60:26:93. 

Are you sure you want to continue connecting (yes/no)? yes 

Warning: Permanently added 'h.slave3,192.163.150.132' (RSA) to the list of known hosts. 
[hadoopeh -]$ exit 














logout 
Connection to h.slave3 closed. 
[hadoopeh -1s lj 
2-05 SSH 无 密码 登录 配置 
lunset i 


unset -f pathmunge 


Export JAVA HOME=/usr/lib/jvm/java-1.7.6-openjd 
xport CLASSPATH-. :$JAVA HOME/j re/lib/rt.jar:$JAVA HOME/lib/dt.jar:$JAVA HOME/lib/tools.ja 
export PATH-SPATH:JAVA HOME/bin 


xport HADOOP HOME-/home/hadoop/hadoop 
xport PATH-S(PATH):S(HADOOP HOME)/bin:S(HADOOP HOME)/sbin 





2-26 profile 文件 的 配置 


@ 在 NameNode 节点 中 ， 修 改 Hadoop 安装 目录 中 的 配置 文件 。 
配置 etc/hadoop/hadoop-env.sh 文件 ， 增 加 Java 接口 设置 ， 如 图 2-27 所 示 。 


The java implementation to use. 
export JAVA HOME-/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.45.x86 64 


2-27 MÆ etc/hadoop/hadoop-env.sh 文件 


配置 etc/hadoop/core-site.xml， 加 入 如 图 2-28 所 示 的 内 容 。 


[et-- Put site-specific property overrides in this file. --» 


«configuration» 
«property» 
«name»hadoop. tmp .dir-/name» 
*value»/home/hadoop/hadoop/tmp- / value» 
«/property» 
«property» 
*name»fs . defaultFS-/name» 
«value»hdfs: //h.master:9000-/value» 
«/property» 
«/configurationdlj 





a 从 基础 理论 到 最 佳 实践 


配置 etc/hadoop/hdfs-site xml， 加 入 如 图 2-29 所 示 的 内 容 。 


I-1-- Put site-specific property overrides in this file. --> 


[configurations 
«property» 
«nane»dfs. replication-/name» 
«value»3«/value» 
</property> 
<property> 
<name>dfs.namenode.name.dir</nane> 
<value>file:/home/hadoop/hadoop/dfs/name</value> 
</property> 
<property> 
<name>dfs.datanode.data.dir</name> 
<value>file:/home/hadoop/hadoop/dfs/data</value> 
</property> 
<property> 
<name>dfs.permissions</nane> 
«value»false-/value» 
«/property» 
«property» 
«nane»dfs .webhdfs .enabled-/nase» 
«value»truec/value» 
«/property» 


|«/configuration» 
ERT 


2-29 配置 etc/hadoop/hdfs-site.xml 


配置 etc/hadoop/slaves， 加 入 DataNode 节点 ， 如 图 2-30 所 示 。 


[hadoopeh hadoop]$ vi slaves 
[hadoop@h hadoop]$ cat slaves 
h.slavel 

h.slave2 

h.slave3 

[hadoopeh hadoop]$ B 


2-30 配置 etc/hadoop/slaves 
C) 创建 Hadoop 数据 目录 : /home/hadoop/hadoop/tmp. /home/hadoop/hadoop/dfs/name . 


/home/hadoop/hadoop/dfs/data， 并 赋予 读 写 权 限 。 
将 目录 “/home/hadoop/Hadoop” 整 体 复制 到 其 他 三 个 节点 ， 如 图 2-31 所 示 。 


[root@h hadoop]# scp -r hadoop hadoop@h.slave3:/home/hadoop/ 


llibhdfs.so 100% 223KB 223.1KB/s 00:00 
lLibhdfs.so.0.0.0 100% 223KB 223.1KB/s 00:00 
Libhadoop.a 100% 1093KB 1.1MB/s 00:00 
iLibhadoop.so 100% 655KB 655.4KB/s 00:00 
libhadoop.so.1.0.0 ex 9.0KB/s  --:-- ETAJ 


图 2-31 复制 目录 “/home/hadoop/Hadoop” 


至 此 ，Hadoop 集群 安装 完成 。 

主要 区 别 在 于 : 

€ SSH 无 密码 登录 配置 。 需 要 在 每 一 台 Hadoop 的 节点 上 都 配置 SSH 无 密码 登录 ， 
使 节点 之 间 能 够 相互 访问 。 

@ 系统 配置 文件 。 在 每 台 服 务 器 上 进行 系统 配置 及 网 络 主机 名 配置 。 

€ Hadoop 配置 。 在 Hadoop 安装 包 的 etc/hadoop/slaves 中 加 入 所 有 数据 节点 。 其 他 配 
置 ， 如 文件 副本 数量 等 ， 可 按 实际 情况 设置 。 


2.4.2 HDFS 的 配置 


Hadoop 与 HDFS 相关 的 配置 文件 主要 是 core-site xml、hdfs-site xml、 mapred-site.xml 








等 三 个 配置 文件 ， 默 认 情 况 下 ， 这 些 配置 文件 都 是 空 的 。 
1. core-site.xml 的 配置 


core-site.xml 是 Hadoop 的 核心 配置 项 ， 是 全 局 配置 ， 包 括 HDFS 和 MapReduce 常用 的 
VO 设置 等 。 其 中 ， 涉 及 HDFS 的 主要 配置 选项 见 表 2-4。 


表 2-4 core-site.xml 的 主要 配置 选项 
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属性 名 称 属性 值 说 明 
临时 文件 夹 , 指定 后 需 将 使 用 到 的 所 有 
hadoop.tmp.dir /tmp/hadoop 子 级 文件 夹 都 要 手动 创建 出 来 , 否则 无 
法 正常 启动 服务 
hadoop.http.authentication. NS 验证 方式 , 默认 为 简单 ,也 可 自己 定义 
type — Class， 需 配置 所 有 节点 
hadoop.http.authentication. 
"e 验证 令 牌 的 有 效 时 间 , 需 配 置 所 有 节点 
token.validity 
. HTTP 验证 所 使 用 的 Cookie 的 域名 ,了 
hadoop.http.authentication. 


cookie.domain 


hadoop.http.authentication. 


simple.anonymous.allowed 


hadoop.http.authentication. 


/home/xianglei/hadoop.keytab 


地 址 访问 则 该 项 无 效 , 必须 给 所 有 节点 
都 配置 域名 


简单 验证 专用 。 默认 tue, 允许 匿名 访问 


Kerberos 验证 专用 , 密 钥 文 件 存放 位 置 

















kerberos.keytab 
Hadoop 服务 层级 验证 安全 验证 ， 需 配 
hadoop.security. 3 fr hadoop-policy.xml 使 用 ,配置 好 以 后 
authorization tuque 用 dfsadmin, mradmin -refreshServiceAcl 
刷新 生效 
hadoop.security. . Hadoop 本 身 的 权限 验证 ， 非 HTTP 访 
ME simple | kerberos > ; > 
authentication i], simple 或 者 kerberos 
hadoop.logfile.size 1000000000 设置 日 志文 件 大 小 ,超过 则 滚动 新 日 志 
hadoop.logfile.count 20 最 大 日 志 数 
fs.default.name hdfs://master:9000 定义 NameNode 节点 的 URI 和 端口 设 定 
S (hadoop.tmp.dir] (SA) 备份 元 数据 节点 目录 , 一 般 这 些 目录 是 不 
fs.checkpoint.dir : PES 
/dfs/namesecondary 同 的 块 设备 ， 不 存在 的 目录 会 被 名 略 掉 
ENS iono HDFS 垃圾 箱 设置 ， 可 以 恢复 误 删 除 ， 
Lad 单位 是 分 钟 数 ，0 为 禁用 
每 校 验 码 所 校 验 的 字 节 数 ， 不 大 于 
io.bytes.per.checksum 


io.skip.checksum.errors 





1o-file.buffer.size 
处 理 序列 化 文件 时 跳 过 校 验 码 错误 , 不 
抛 出 异常 。 默 认 是 false 


9 





数据 


Q S a EUNTES 





续 表 
属性 名 称 属性 值 说 明 
io.serializations i op aetla, 序列 化 的 编 解码 器 


WritableSerialization 





io.segfile.compress. 
blocksize 


io.compression.codecs 


jo.compression.codec. 


Izo.class 


io.file.buffer.size 


webinterface.private.actions 


topology.script.file.name 


topology.script.number.args 


1024000 


org.apache.hadoop.io.compress. 


DefaultCodec, 
com.hadoop.compression.lzo. 
LzoCodec, 
com.hadoop.compression.lzo. 
LzopCodec, 


org.apache.hadoop.io.compress. 


GzipCodec, 


org.apache.hadoop.io.compress. 


BZip2Codec, 


org.apache.hadoop.io.compress. 


SnappyCodec 


com.hadoop.compression.lzo. 
LzoCodec 
131072 


true | false 


/hadoop/bin/RackAware.py 





块 压缩 的 序列 化 文件 的 最 小 块 大 小 , 字 节 


Hadoop 所 使 用 的 编 解码 器 ，Gzip、 
Bzip2 为 自 带 ，LZO 需 安装 hadoopgpl 
或 者 kevinweil， 逗 号 分 隔 。 

snappy 需要 单独 安装 并 修改 hadoop 
-env.sh 

配置 LD_ LIBRARY PATH=snappy 类 
库 位 置 


LZO 所 使 用 的 压缩 编码 器 


用 作 序 列 化 文件 处 理 时 读 写 buffer 的 
大 小 

Web 交互 的 行为 设 定 。 设 为 tme， 则 
JobTracker 和 NameNode 的 tracker 网 
页 会 出 现 杀 任务 删 文件 等 操作 连接 , 默 
认 是 false 

机 架 感 知 位 置 脚本 

机 架 感 知 脚本 管理 的 主机 数 ，IP 地 址 





分 布 式 集群 部 署 模式 时 ， 核 心 配 置 文件 core-site.xml 的 参考 配置 格式 如 下 : 


<configuration> 
<property> 


<name>fs.defaultFs</name> 
«value»hdfs://master:9000«/value» 


</property> 
<property> 


<name>io.file.buffer.size</name> 
<value>131072</value> 


</property> 
<property> 


«name»hadoop.tmp.dir«/name» 


«value»file:/home/hadoop/tmp«/value» 


</property> 
<property> 


Q P CERT RR 


«name»hadoop.proxyuser.hduser.hosts«/name» 
«value»*«/value» 


</property> 
<property> 


<name>hadoop .proxyuser .hduser .groups</name> 
<value>*</value> 


</property> 
</configuration> 


2. hdfs-site.xml 配置 
hdfs-site.xml 是 HDFS 的 





局 部 配置 文件 ， 主 要 配置 选项 见 表 2-5。 


表 2-5 hdfs-site.xml 的 主要 配置 选项 























属性 名 称 属性 值 说 RH 
dfs.namenode.handlercount | 10 NameNode 启动 后 开启 的 线程 数 
dfs.datanode.http.address 0.0.0.0:50075 DataNode 的 tracker 页 面 监 听 地 址 和 端口 
. DataNode 的 IPC 监听 端口 ， 为 0 的 话 会 在 
dfs.datanode.ipc.address 0.0.0.0:50020 随机 端口 监听 ， 通 过 心跳 通知 NameNode 
dfs.datanode.address 0.0.0.0:50010 DataNode 服务 端口 ， 为 0 则 随机 监听 
Linux 下 的 打开 文件 最 大 数量 ， 当 出 现 
dfs.datanode.max.xcievers 256 DataXceiver 报错 的 时 候 ， 需 要 调 大 
上 datanode datadirpem | 755 Dalina, 所 使 用 的 本 地 文件 夹 的 路 径 权 
限 ， 默 认 755 
dfs.datanode.failed. B DataNode 磁盘 卷 出 错 次 数 。0 次 则 任何 卷 
volumes.tolerated 出 错 都 要 停止 DataNode 
$ {hadoop.tmp.dir}/dfs 存储 在 本 地 的 NN 数据 镜像 的 目录 ， 作 为 
dfs.name.dir es 
/name NameNode 的 见 余 备份 
/var/data/hadoop/hdfs/datal, i NW 
dfs.data.dir ee E merid 数据 保存 路 径 ， 可以 多 分 
/var/data/hadoop/hdfs/data3 | — 
dfs.heartbeat.interval 3 DataNode 心跳 检测 时 间 间 隔 ， 单 位 为 秒 
数据 块 写 入 最 多 重 试 次 数 ， 在 此 次 数 之 前 
dfs.client.block.write.retries | 3 不 会 捕获 失败 
dfs.max.objects 0 pu 要 À IRANE: Hopes " USER 
会 被 认为 是 一 个 对 象 ，0 表示 不 限制 
指定 系统 退出 安全 模式 时 需要 的 延迟 时 
dfs.safemode.extension 30 间 ， 单 位 为 秒 ， 默 认为 30 
dfs.http.address 0.0.0.0:50070 NameNode 的 Web 管理 端口 
dfs.https.enable true | false( 默 认 ) NameNode 的 tracker 是 否 支持 HTIPS 协议 
dfs.https.address 0.0.0.0:50470 NameNode 的 tracker 页 面 监听 访问 地 址 
dfs.permissions true | false dfs 权限 是 否 打 开 ， 一 般 设置 为 false 
dfs.permissions.supergroup | supergroup( 默 认 ) 设置 hdfs 超级 权限 组 
um hdfs 数据 块 的 副本 数 ， 默 认 3， 理 论 上 数量 
dfs.replication 3 





越 大 速度 越 快 ， 但 需要 的 存储 空间 也 更 多 
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二 和 


属性 名 称 


dfs.replication.max 


dfs.replication.min 


dfs.replication.interval 


dfs.hosts 


dfs.hosts.exclude 





属性 值 


/usr/local/hadoop/conf 
/dfs.hosts.allow 


/usr/local/hadoop/conf 
/dfs.hosts.deny 


3. mapred-site.xml 配置 
mapred-site.xml 用 于 配置 MapReduce 使 用 的 框架 ， 与 HDFS 的 关联 主要 是 文件 和 IO 


属性 名 称 


mapred.local.dir 


mapred.system.dir 


mapred.temp.dir 


说 明 
DataNode 数据 块 的 最 大 副本 数量 。 
DataNode 故障 临时 恢复 时 会 导致 数据 超过 
默认 副本 数 ， 此 属性 通常 不 用 配置 
DataNode 数据 块 的 最 小 副本 数量 
NameNode 计算 复制 DataNode 节点 的 工作 
周期 数 ， 单 位 为 秒 。 一 般 情 况 下 不 用 指定 
DataNode 的 白 名 单 。 仅 在 dfs.hosts 文件 中 
指定 的 DataNode 有 权限 连接 到 NameNode 
上 。 如 果 该 参数 不 指定 ， 那 么 默认 所 有 的 
DataNode 都 可 以 连接 到 NameNode 


DataNode 黑 名 单 


操作 。 这 里 简单 介绍 一 下 mapred-site.xml 的 相关 配置 项 ， 见 表 2-6。 


表 2-6 mapred-site.xml 的 相关 配置 项 


/datal/hdfs/mapred/local, 
/data2/hdfs/mapred/local, 


/datal/hdfs/mapred/system, 
/data2/hdfs/mapred/system, 


/datal/hdfs/mapred/temp, 
/data2/hdfs/mapred/temp, 


说 HB 
mapred 是 做 本 地 计算 所 使 用 的 文件 夹 ， 
可 以 配置 多 块 硬盘 ， 以 逗号 分 隔 


mapred 存放 控制 文件 所 使 用 的 文件 夹 ， 
可 配置 多 块 硬盘 ， 喜 号 分 隔 


mapred 是 共享 的 临时 文件 夹 路 径 ， 可 配 
置 多 块 硬盘 ， 以 逗号 分 隔 





mapred.local.dir.minspacestart 


mapred.local.dir.minspacekill 


1073741824 


1073741824 


本 地 运算 文件 夹 剩 余 空间 低 于 该 值 则 不 
在 本 地 做 计算 。 单 位 是 字 节 数 ， 默 认为 0 
本 地 计算 文件 夹 剩 余 空间 低 于 该 值 则 不 
再 申请 新 任务 ， 单 位 是 字 节 数 ， 默 认为 0 





hadoop.job.history.location 


hadoop.job.history.user.location 


job 历史 文件 保存 路 径 ， 无 可 配置 参数 ， 
也 不 用 写 在 配置 文件 中 ， 默 认 在 logs 的 
history 文件 夹 下 

用 户 历史 文件 的 存放 位 置 





io.sort.factor 


处 理 流 合并 时 的 文件 排序 数 





io.sort.mb 





排序 所 使 用 的 内 存 数 量 ， 单 位 是 兆 ， 默 认 
为 1 
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2.4.3 启动 HDFS 
配置 完成 后 ， 需 要 先 在 NameNode 中 格式 化 HDFS 系统 ， 然 后 再 启动 。 


1. HDFS 的 格式 化 


如 图 2-32 所 示 ， 我 们 使 用 “hdfs namenode -format” 命 令 格式 化 Hadoop 2.6.0 的 HDFS 
系统 。 


[root&h hadoop]# hdfs namenode -format 

16/04/09 22:34:26 INFO namenode.NameNode: STARTUP MSG: 
mn 

: Starting NameNode 

host - h.master/192.168.150.129 

args = [-format] 

version - 2.6.0 

classpath = /home/hadoop/hadoop/etc/hadoop: /home/hadoop/hadoop/share/hadoop/com 





16/04/09 22:40:29 INFO common.Storage: Storage directory /home/hadoop/hadoop/dfs/name has been 
successfully formatted. 

16/04/09 22:40:29 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid > 
= 9 

16/04/09 22:40:29 INFO util.ExitUtil: Exiting with status 0 

16/04/09 22:40:29 INFO namenode.NameNode: SHUTDOWN MSG: 
n I 


SHUTDOWN MSG: Shutting down NameNode at h.master/192.168.150.129 


[UOOOOOOOOOOOOOOOHOUOODOOOOOGOOOOOOHOUUOUOOOOOOOO I I I n / 


Thadoon&h hadoon!s M 


2-32 HDFS 的 格式 化 


2. HDFS 的 启动 
通过 执行 脚本 start-dfs.sh 或 start-all.sh 启动 Hadoop 文件 系统 ， 如 图 2-33 所 示 。 


[hadoop@h hadoop]$ sbin/start-all.sh 

[This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh 

[starting namenodes on [h.master] 

lh.master: starting namenode, logging to /home/hadoop/hadoop/logs/hadoop-hadoop-namenode-h.master. 
lout 

h.slave2: starting datanode, logging to /home/hadoop/hadoop/logs/hadoop-hadoop-datanode-h. slave2. 
lout 

h.slavel: starting datanode, logging to /home/hadoop/hadoop/logs/hadoop-hadoop-datanode-h. slavel. 
|out 

h.slave3: starting datanode, logging to /home/hadoop/hadoop/logs/hadoop-hadoop-datanode-h. slave3. 
lout 

starting secondary namenodes [0.0.0.0] 

o.o tarting secondarynamenode, logging to /home/hadoop/hadoop/logs/hadoop-hadoop-secondaryn 
|amenode-h.master.out 

starting yarn daemons 

starting resourcemanager, logging to /home/hadoop/hadoop/logs/yarn-hadoop-resourcemanager-h.maste 
ir.out 

h.slave2: starting nodemanager, logging to /home/hadoop/hadoop/logs/yarn-hadoop-nodemanager-h.sla 
'e2.0ut 

lh.slavel: starting nodemanager, logging to /home/hadoop/hadoop/logs/yarn-hadoop-nodemanager-h.sla 
velout 

Ih.slave3: starting nodemanager, logging to /home/hadoop/hadoop/logs/yarn-hadoop-nodemanager-h.sla 
|ve3 out 

[hadoop@h hadoop]s M 















图 2-33 启动 Hadoop 


3. 验证 


可 以 使 用 Java 自 带 的 小 工具 jps 查看 进程 ， 如 图 2-34 所 示 ; 也 可 以 用 “hdfs dfsadmin 
-Teport” 命 令 查看 Hadoop 集群 的 状态 ， 如 图 2-35 所 示 。 


[hadoop@h hadoop]$ hdfs dfsadmin -report 
[Configured Capacity: 44104237056 (41.08 GB) 
Present Capacity: 26043969536 (24.26 GB) 
FS Remaining: 26043895808 (24.26 GB) 

FS Used: 73728 (72 KB) 

FS Used*: 0.00% 

inder replicated blocks: 6 

Blocks with corrupt replicas: 8 

Missing blocks: 9 


Live datanodes (3): 





lame: 192.168.150.130:50010 (h.slavel) 
lostname: h.slavel 
commission Status : Normal 
[Configured Capacity: 14701412352 (13.69 GB) 
[DFS Used: 24576 (24 KB) 
lon DFS Used: 5938585600 (5.53 GB) 
FS Remaining: 8762802176 (8.16 GB) 
FS Used*: 0.00% 
FS Remaining: 59.61% 
|Configured Cache Capacity: © (0 B) 
(Cache Used: 0 (0 B) 
|Cache Remaining: 0 (0 B) 
|Cache Used*: 100.00* 
|Cache Remainingx: 0.00% 
IXceivers: 1 
Last contact: Sat Apr 09 23:02:15 CST 2016 


[hadoop@h hadoop]$ jps 





[2564 SecondaryNameNode Name: 192.168.150.131:50010 (h.slave2) 
[2374 NameNode Hostname: h.slave2 
[2700 ResourceManager lDecommission Status : Normal 
[2907 Jps |Configured Capacity: 14701412352 (13.69 GB) 
[hadoopeh hadoop]S 目 [DFS Used: 24576 (24 KB) 

2-34 jps 命令 2-35 ”查看 集群 状态 


打开 浏览 器 ， 输 入 “http://localhost:50070”， 页 面 显 示 正 常 内 容 ， 说 明 Hadoop 安装 成 
功 并 在 运行 中 ， 如 图 2-36 所 示 。 


B —— ———————————— — ——— 


«& [S localhost:50070/dfshealth htmi#tab-overview 















Hadoop 


Started: Sat Apr 09 22:59:53 CST 2016 

Version: 2.6.0, rUnknown 

Compiled: 2014-12-23T03:59Z by root from Unknown 
Cluster ID: CID-9473027b-06ac-4129-8cce-275b94930b6a 
Block Pool ID: BP-199319913-192.168.150.129-1460213359400 


Bl 2-36 Hadoop Web 的 状态 
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本 章 介绍 了 分 布 式 文件 系统 及 HDFS,， 并 重点 介绍 了 HDFS 的 结构 组 成 、 运 行 原理 ， 以 
及 数据 操作 、 数 据 完整 性 、 压 缩 存储 、 序 列 化 等 诸多 优点 和 特性 。 

通过 学 习 本 章 的 内 容 , 读者 应 能 够 对 HDFS 分 布 式 文件 系统 有 一 定 的 认识 , 掌握 HDFS 
的 内 部 运行 机 制 ， 为 下 一 章 的 操作 打下 基础 。 
当然 , HDFS 也 有 其 自身 的 缺陷 和 不 足 ， 比 如 不 适合 存储 大 量 的 小 文件 、 不 适合 大 量 的 
随机 读 文件 操作 等 ， 有 兴趣 的 读者 不 妨 扩展 一 下 。 

本 章 最 后 详细 介绍 了 Hadoop 的 安装 配置 ， 读 者 要 熟练 掌握 并 实际 完成 Hadoop 集群 配 
置 ， 后 续 学 习 实 践 也 将 在 本 章 安装 的 环境 的 基础 上 进行 。 
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本 章 将 介绍 如 何 使 用 和 管理 Hadoop 的 HDFS 文件 系统 ， 包 括 Shell 命 
邻接 口 、Java 编程 接口 等 文件 或 文件 夹 的 读 写 操作 ， 实 践 性 较 强 。 

通过 本 章 的 学 习 ， 将 使 读者 能 够 在 使 用 中 掌握 HDFS 的 文件 操作 ， 为 
后 续 的 学 习 打 下 基础 。 





Shell 命令 接口 
Java 接口 编程 开发 
WebHDFS 接口 
文件 读 写 操作 


数据 : 
«ja 从 基础 理论 到 最 佳 实践 “全 


3.1 HDFS 接口 与 编程 


HDFS 提供 了 多 种 用 户 操作 和 编程 接口 ， 既 通过 Shell 命令 管理 文件 与 目录 、 管 理 作 业 
调度 、 控 制 与 优化 集群 性 能 等 ， 也 提供 了 Java、C 语言 等 的 编程 接口 ， 用 户 可 以 通过 编写 
程序 对 HDFS 进行 扩展 。 





3.1.1 Shell 命令 


HDFS 资源 URI 的 格式 如 下 : 
scheme://authority/path 


其 中 scheme 是 协议 名 ， 一 般 是 file 或 hdfs; authority 是 授权 访问 的 主机 名 或 IP; path 
是 访问 路 径 。 例 如 : 


hdfs://localhost:9000/user/chunk/test.txt 


如 果 已 经 在 core-sitexml 里 配置 了 fs.default.name=hdfs://localhost:9000， 则 仅 使 用 
/user/chunk/test.txt 即 可 。 

在 HDFS 的 所 有 接口 中 ，Shell 命令 行 接口 最 简单 ， 也 是 开发 者 比较 熟悉 的 方式 。 我 们 
通过 使 用 “hdfs -help” 命 令 ， 可 以 看 到 HDFS 支持 的 文件 系统 命令 ， 如 图 3-1 所 示 。 


rootütest hadoop]# hdfs -help 
Usage: hdfs [--config confdir] COMMAND 
where COMMAND is one of: 
dfs run a filesystem command on the file systems supported in Hadoop. 
namenode -format format the DFS filesystem 
Secondarynamenode run the DFS secondary namenode 


namenode run the DFS namenode 

journalnode run the DFS journalnode 

zkfc run the ZK Failover Controller daemon 

datanode run a DFS datanode 

dfsadmin run a DFS admin client 

haadnin run a DFS HA admin client 

fsck run a DFS filesystem checking utility 

balancer run a cluster balancing utility 

jmxget get JMX exported values from NameNode or DataNode, 

mover run a utility to move block replicas across 
storage types 

oiv apply the offline fsimage viewer to an fsimage 

oiv. legacy apply the offline fsimage viewer to an legacy fsimage 

oev apply the offline edits viewer to an edits file 

fetchdt fetch a delegation token from the NameNode 

getconf get config values from configuration 

groups get the groups which users belong to 

snapshotDiff diff two snapshots of a directory or diff the 


current directory contents with a snapshot 
lsSnapshottableDir list all snapshottable dirs owned by the current user 
Use -help to see options 


portmap run a portmap service 

nfs3 run an NFS version 3 gateway 

cacheadmin configure the HDFS cache 

crypto configure HDFS encryption zones 
storagepolicies get all the existing block storage policies 
version print the version 


Most commands print help when invoked w/o parameters. 


3-1 HDFS 支持 的 文件 系统 命令 


HDFS 支持 的 文件 系统 命令 主要 有 两 类 。 

(1) 用 户 命令 : 用 于 管理 HDFS 日 常 操作 ， 如 dfs、fsck、fetchdt 等 。 

(2) 系统 管理 命令 : 主要 用 于 控制 和 管理 HDFS 集群 , 如 balancer、 namenode、 datanode、 
dfsadmin、secondarynamenode 等 。 限 于 篇 幅 ， 这 里 只 介绍 几 种 常用 的 命令 模块 。 
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1. hdfs dfs [GENERIC OPTIONS] [COMMAND OPTIONS] 


“hdfs dfs” 提 供 了 类 似 于 Linux Shell 一 样 的 命令 集 ， 其 用 法 与 Linux Shell 基本 一 致 。 
详细 介绍 各 个 命令 。 
(1) appendToFile. 
说 明 : 将 一 个 或 者 多 个 本 地 文件 追加 到 目的 文件 。 成 功 返 回 0， 错 误 返 回 1。 
格式 : hdfs dfs -appendToFile <localsrc> ... «dst 
示例 : 
hdfs dfs -appendToFile localfile /user/hadoop/hadoopfile 


hdfs dfs -appendToFile localfilel localfile2 /user/hadoop/hadoopfile 
hdfs dfs -appendToFile localfile hdfs://nn.example.com/hadoop/hadoopfile 


(2) cat。 

说 明 : 将 路 径 指 定 文件 的 内 容 输 出 到 stdout。 成 功 返 回 0， 错 误 返 回 -1。 

格式 : hdfs dfs -cat URI [URI ...] 

示例 : 

hdfs dfs -cat hdfs://nnl.example.com/filel hdfs://nn2.example.com/file2 
hdfs dfs -cat file:///file3 /user/hadoop/file4 


(3) chgrp. 

说 明 : 改变 文件 所 属 的 用 户 组 。 如 果 使 用 -R 选项 ， 则 这 一 操作 对 整个 目录 结构 递归 执 
行 。 使 用 这 一 命令 的 用 户 必 须 是 文件 的 所 属 用 户 ， 或 者 是 超级 用 户 。 

格式 : hdfs dfs -chgrp [-R] GROUP URI [URI ...] 





z 

















— 





(4) chmod. 

说 明 : 改变 文件 的 权限 。 使 用 -R 将 使 改变 在 目录 结构 下 递归 进行 。 命 令 的 使 用 者 必须 
是 文件 的 所 有 者 或 者 超级 用 户 。 

格式 : hdfs dfs -chmod [-R] -MODE[, MODE]... | OCTALMODE> URI [URI ...] 

(5) chown。 


说 明 : 改变 文件 的 所 属 用 户 。 如 果 使 用 -R 选项 ， 则 这 一 操作 对 整个 目录 结构 递归 执行 。 
使 用 这 一 命令 的 用 户 必 须 是 文件 在 命令 变更 之 前 的 所 属 用 户 ， 或 者 是 超级 用 户 。 

格式 : hdfs dfs -chown [-R] [OWNER][:[GROUP]] URI [URI ] 

(6) copyFromLocal. 

WA: 从 本 地 复制 ， 与 put 命令 相似 ， 但 限定 源 路 径 是 本 地 的 。 

格式 : hdfs dfs -copyFromLocal <localsrc> URI 

(7) copyToLocal. 

说 明 : 复制 到 本 地 ， 与 get 命令 相似 ， 但 限定 目的 路 径 是 本 地 的 。 

格式 : hdfs dfs -copyToLocal [-ignorecrc] [-crc] URI <localdst> 

(8) count。 

说 明 : 计算 文件 、 目 录 的 数量 。 成 功 返 回 0， 错 误 返 回 -1。 

格式 : hdfs dfs -count [-q] [-h] <paths> 

示例 : 

hdfs dfs -count hdfs://nnl.example.com/filel hdfs://nn2.example.com/file2 


hdfs dfs -count -q hdfs://nnl.example.com/filel 
hdfs dfs -count -q -h hdfs://nnl.example.com/filel 
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(9) cp。 

说 明 : 将 文件 从 源 路 径 复 制 到 目标 路 径 。 这 个 命令 允许 有 多 个 源 路 径 ， 但 同时 ， 目 标 
路 径 必 须 是 一 个 目录 。 成 功 返回 0， 错误 返回 -1。 

格式 : hdfs dfs -cp [-f] [-p | -p[topax]] URI [URI ...] «dest» 

示例 : 


hdfs dfs -cp /user/hadoop/filel /user/hadoop/file2 . 
hdfs dfs -cp /user/hadoop/filel /user/hadoop/file2 /user/hadoop/dir 


(10) du. 

说 明 : 显示 目录 中 所 有 文件 的 大 小 ， 或 者 当 只 指定 一 个 文件 时 ， 显 示 此 文件 的 大 小 。 
成 功 返回 0， 错误 返回 -1。 

格式 : hdfs dfs -du [-s] [-h] URI [URI ...] 

示例 : 


hdfs dfs -du /user/hadoop/dirl /user/hadoop/filel 
hdfs://nn.example.com/user/hadoop/dirl 


(11) dus. 

说 明 : 显示 文件 的 大 小 。 此 命令 可 以 用 “du -s” 蔡 代 。 

格式 : hdfs dfs -dus <args> 

(12) expunge。 

作用 : 清空 回收 站 。 

格式 : hdfs dfs -expunge 

(13) get。 

WH: 复制 文件 到 本 地 文件 系统 。 可 用 “-ignorecrc” 选 项 复制 CRC 校 验 失败 的 文件 。 
使 用 “-cre” 选 项 复制 文件 以 及 CRC 信息 。 成 功 返 回 0， 错 误 返 回 -1。 

格式 : hdfs dfs -get [-ignorecrc] [-crc] <src> <localdst> 

示例 : 


hdfs dfs -get /user/hadoop/file localfile 
hdfs dfs -get hdfs://nn.example.com/user/hadoop/file localfile 


(14) getfacl。 

说 明 : 显示 文件 或 者 目录 的 权限 控制 列表 。 成 功 返 回 0， 错 误 返 回 非 零 值 。 
格式 : hdfs dfs -getfacl [-R] <path> 

示例 : 


hdfs dfs -getfacl /file, 
hdfs dfs -getfacl -R /dir 


(15) getfattr. 

说 明 : 显示 文件 或 者 目录 的 扩展 属性 。 成 功 返回 0， 错 误 返 回 非 零 值 。 
格式 : hdfs dfs -getfattr [-R] -n name | -d [-e en] <path> 

示例 : 


hdfs dfs -getfattr -d /file 
hdfs dfs -getfattr -R -n user.myAttr /dir 





(16) getmerge。 
说 明 : 接受 一 个 源 目录 和 一 个 目标 文件 作为 输入 ， 并 且 将 源 目 录 中 所 有 的 文件 连接 成 
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本 地 目标 文件 。addnl 是 可 选 的 ， 用 于 指定 在 每 个 文件 结尾 添加 一 个 换行 符 。 
格式 : hdfs dfs -getmerge <src> <localdst> [addnl] 
(17) ls. 
说 明 : 与 Linux 中 一 样 ， 返 回 子 目录 或 子 文件 列表 。 成 功 返 回 0， 错 误 返回 -1。 
格式 : hdfs dfs -ls [-R] <args> 
示例 : 
hdfs dfs -ls /user/hadoop/filel 


(18) lsr。 

说 明 : ls 命令 的 递归 版 本 ， 一 般 使 用 “ls -R" RE. 

格式 : hdfs dfs -lsr <args> 

(19) mkdir。 

说 明 : 创建 目录 ， 加 -p 选项 创建 多 层 目 录 。 成 功 返 回 0， 错 误 返 回 -1。 
格式 : hdfs dfs -mkdir [-p] <paths> 

示例 : 


hdfs dfs -mkdir /user/hadoop/dirl /user/hadoop/dir2 
hdfs dfs -mkdir hdfs://nnl.example.com/user/hadoop/dir 
hdfs://nn2.example.com/user/hadoop/dir 


(20) moveFromLocal. 

WH: 类 似 put， 区 别 在 于 put 操作 完成 后 删除 。 

格式 : hdfs dfs -moveFromLocal <localsrc> <dst> 

(21) mv。 

说 明 : 将 文件 从 源 路 径 移 动 到 目标 路 径 。 这 个 命令 允许 有 多 个 源 路 径 ， 此 时 ， 目 标 路 
径 必须 是 一 个 目录 。 不 允许 在 不 同 的 文件 系统 间 移 动 文件 。 成 功 返回 0， 错误 返回 -1。 

格式 : hdfs dfs -mv URI [URI ...] «dest 

示例 : 


hdfs dfs -mv /user/hadoop/filel /user/hadoop/file2 
hdfs dfs -mv hdfs://nn.example.com/filel hdfs://nn.example.com/file2 
hdfs://nn.example.com/file3 hdfs://nn.example.com/dirl 


(22) put。 

WA: 从 本 地 文件 系统 中 复制 单个 或 多 个 源 路 径 到 目标 文件 系统 。 也 支持 从 标准 输入 
设备 中 读 取 输 入 ， 写 入 目标 文件 系统 。 成 功 返 回 0， 错 误 返 回 -1。 

格式 : hdfs dfs -put <localsrc> ... «dst» 

示例 : 

hdfs dfs -put localfile /user/hadoop/hadoopfile 

hdfs dfs -put localfilel localfile2 /user/hadoop/hadoopdir 

hdfs dfs -put localfile hdfs://nn.example.com/hadoop/hadoopfile 

(23) rm. 

说 明 : 删除 指定 的 文件 或 目录 。 成 功 返 回 0， 错 误 返 回 -1。 

格式 : hdfs dfs -rm [-f] [-r|-R] [-skipTrash] URI [URI ...] 
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示例 : 

hdfs dfs -rm hdfs://nn.example.com/file /user/hadoop/emptydir 

(24) mr. 

说 明 : rm 的 递归 版 本 ， 已 过 时 ， 一 般 使 用 “rm -r” 代 替 。 

格式 : hdfs dfs -rmr [-skipTrash] URI [URI ...] 

(25) setfacl. 

说 明 : 设置 文件 或 者 目录 的 权限 控制 列表 。 成 功 返 回 0， 错 误 返回 非 零 值 。 

格式 : hdfs dfs -setfacl [-R] [-b|-k -ml-x «acl spec» <path>]|[--set «acl spec» <path>] 
示例 : 


hdfs dfs -setfacl -m user:hadoop:rw- /file 

hdfs dfs -setfacl -x user:hadoop /file 

hdfs dfs -setfacl -b /file 

hdfs dfs -setfacl -k /dir 

hdfs dfs -setfacl --set user::rw-,user:hadoop:rw-,group::r--,other::r-- 
/file 

hdfs dfs -setfacl -R -m user:hadoop:r-x /dir 

hdfs dfs -setfacl -m default:user:hadoop:r-x /dir 


(26) setfattr. 

说 明 : 设置 文件 或 者 目录 的 扩展 属性 。 成 功 返回 0， 错误 返回 非 零 值 。 
格式 : hdfs dfs -setfattr -n name [-v value] | -x name <path> 

示例 : 


hdfs dfs -setfattr -n user.myAttr -V myValue /file 
hdfs dfs -setfattr -n user.noValue /file 
hdfs dfs -setfattr -x user.myAttr /file 


(27) setrep 。 

说 明 : 改变 文件 和 目录 的 复制 因子 。 成 功 返 回 0， 错 误 返 回 -1。 

格式 : hdfs dfs -setrep [-R] [-w] <numReplicas> <path> 

示例 : 

hdfs dfs -setrep -w 3 /user/hadoop/dirl 

(28) stat。 

说 明 : 返回 指定 路 径 的 统计 信息 。 成 功 返 回 0， 错 误 返 回 -1。 

格式 : hdfs dfs -stat URI [URI ...] 

示例 : 

hdfs dfs -stat path 

(29) tail. 

说 明 : 将 文件 尾部 IKB 的 内 容 输出 到 stdout。 成 功 返回 0， 错 误 返 回 -1。 
格式 : hdfs dfs -tail [-f] URI 

示例 : 

hdfs dfs -tail pathname 

(30) test 

说 明 : 检查 文件 。 选 项 “-e” 检 查 文件 是 否 存在 ， 如 果 存 在 则 返回 0， 选项 “-z” 检 查 文 
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件 是 否 为 0 字 节 ， 如 果 是 则 返回 0， 选 项 “-d” 检 查 路 径 是 否 为 目录 ， 如 果 是 则 返回 1 
则 返回 0。 

格式 : hdfs dfs -test -[ezd] URI 

示例 : 

hdfs dfs -test -e filename 

(31) text。 

说 明 : 将 源 文件 输出 为 文本 格式 。 人 允许 的 格式 是 zip 和 TextRecordInputStream. 

格式 : hdfs dfs -text <src> 

(32) touchz。 

WH: 创建 一 个 空 文件 。 成 功 返 回 0， 错 误 返 回 -1。 

格式 : hdfs dfs -touchz URI [URI ...] 

示例 : 

hdfs dfs -touchz pathname 





f 








期 版 本 的 格式 ， 已 经 过 时 ， 一 般 使 用 “hdfs dfs”.。 
“hadoop fs” 也 是 文件 系统 操作 命令 ， 但 使 用 范围 更 广 ， 能 够 操作 其 他 格式 文件 系统 ， 
如 local、HDFS 等 ， 可 以 在 本 地 与 Hadoop 分 布 式 文件 系统 的 交互 操作 中 使 用 。 


2. hdfs fsck [GENERIC_OPTIONS] «path? [-list-corruptfileblocks | [-move | -delete 
| -openforwrite] [-files [-blocks [-locations | -racks]]]] [-includeSnapshots] 


fsck 是 一 个 文件 系统 健康 状况 检查 工具 ， 用 来 检查 各 类 问题 ， 比 如 ， 文 件 块 丢失 等 (如 
图 3-2 所 示 )。 但 是 ， 注 意 它 不 会 主动 恢复 备份 缺失 的 block， 这 个 是 由 NameNode 单独 的 线 
程 异步 处 理 的 。 


rootütest hadoop]# hdfs fsck / 
Connecting to namenode via http: //test. hadoop: 50070 
[FSCK started by root (auth: SIMPLE) from /192, 168.221.133 for path / at Mon Mar 07 23:41:56 CST 20 
6 
status: HEALTHY 
Total size: 0 
Total dirs: — 1 
Total files 0 
Total symlinks: 
Total blocks (validated): 
Minimally replicated blocks: 
Over-replicated blocks: 
Under-replicated blocks: 
Mis-replicated blocks: 
Default replication factor: 
Average block replication: 
Corrupt blocks: 
Missing replicas: 
Number of data-nodes: 
Number of racks: 1 
|FSCK ended at Mon Mar 07 23:41:56 CST 2016 in 2 milliseconds 


"oooroooocoo 
> 


he filesystem under path '/" is HEALTHY 
rootütest hadoop] B 


3-2 fsck 命令 的 运行 结果 


US QU 
9 
fsck 命令 的 参数 说 明 见 表 3-1。 


表 3-1 fsck 参数 的 说 明 
































参 数 说 明 
ath 被 检查 的 目录 
-move 将 破损 的 文件 移 至 /lost+found 目录 
-delete 删除 破损 的 文件 
-files 打印 正在 检查 的 文件 名 
-openforwrite 打印 正在 打开 写 操作 的 文件 
-includeSnapshots 如 果 检 测 的 目录 有 快照 表 ， 则 包括 快照 数据 
-list-corruptfileblocks 打印 出 丢失 的 块 及 它们 所 属 的 文件 列表 
-blocks 打印 block 报告 (需要 与 -files 参数 一 起 使 用 ) 
-locations 打印 每 个 block 的 位 置信 息 (需要 与 -files 参数 一 起 使 用 ) 
-racks 打印 数据 节点 位 置信 息 的 网 络 拓 扑 图 (与 -files 参数 一 起 使 用 ) 


3. hdfs datanode [-regular | -rollback | -rollingupgrade rollback] 
运行 一 个 HDFS 集群 的 数据 节点 。 参 数 说 明 见 表 3-2。 
表 3-2 hdfs datanode 命令 参数 的 说 明 


正常 启动 数据 节点 
-rollback 将 数据 节点 回 滚 到 前 一 个 版 本 
-rollingupgrade rollback 回 滚 一 个 升级 操作 





4. hdfs namenode [GENERIC_OPTIONS] 
“hdfs namenode” 是 运行 NameNode 的 命令 ， 是 一 个 比较 核心 的 工具 。 该 命令 的 主要 
参数 说 明 见 表 3-3。 
表 3-3 hdfs namenode 命令 参数 的 说 明 

















5 SU 说 明 
-backup 启动 备份 节点 
-checkpoint 启动 检查 点 
-format [-clusterid cid] [-force] [-nonInteractive] 格式 化 NameNode 
-upgrade [-clusterid cid] [-renameReserved 分 发 新 版 本 的 Hadoop 后 ，NameNode 以 upgrade 
<k-v pairs>] 选项 启动 
mM 将 NameNode 回 滚 到 前 一 版 本 。 这 个 选项 要 在 停止 
集群 并 分 发 老 的 Hadoop 版 本 后 使 用 
-finalize 保持 最 近 的 升级 并 删除 文件 系统 的 前 一 状态 


Q< 
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续 表 





说 HB 
从 检查 点 目录 装载 镜像 并 保存 到 当前 检查 点 目录 ， 
检查 点 目录 由 fs.checkpoint.dir 指定 
恢复 损坏 的 文件 系统 上 丢失 的 元 数据 





















5. hdfs dfsadmin [GENERIC_OPTIONS] 
dfsadmin 是 一 个 多 任务 的 工具 ,我 们 可 以 使 用 它 来 获取 HDFS 的 状态 信息 ,以 及 在 HDFS 
上 执行 的 一 系列 管理 操作 。 该 命令 的 主要 参数 说 明 见 表 3-4。 
表 3-4 hdfs dfsadmin 命令 参数 的 说 明 


参 "5 说 明 

-report [-live] [-dead] [-decommissioning] 告 文件 系统 的 基本 信息 和 统计 信息 
安全 模式 维护 命令 。 安全 模式 是 NameNode 的 一 个 状态 , 这 种 
状态 下 ，NameNode: 
1. 不 接受 对 命名 空间 的 更 改 (只 读 )。 

-safemode enter|leave|get|wait 2. 不 复制 或 删除 块 。 
NameNode 会 在 启动 时 自动 进入 安全 模式 ， 当 配置 的 块 最 小 百 
分 比 数 满足 最 小 的 副本 数 条 件 时 , 会 自动 离开 安全 模式 。 安 全 
模式 可 以 手动 进入 , 但 是 , 这 样 的 话 也 必须 手动 关闭 安全 模式 
保存 当前 命名 空间 到 存储 目录 并 重 置 编辑 日 志 。 需要 在 安全 模 
式 中 运行 
这 个 选项 “打开 /关闭 ”自动 尝试 修复 故障 存储 副本 的 功能 。 
check 选项 将 返回 当前 设置 
重新 读 取 hosts 和 exclude 文件 ， 使 新 的 节点 或 需要 退出 集群 





-saveNamespace 


-restoreFailedStorage true|false|check 














-refreshNodes 的 节点 能 够 被 NameNode 重新 识别 。 这 个 命令 在 新 增 节点 或 注 
销 节点 时 用 到 


为 每 个 目录 <dimame> 设 定 配额 <quota>。 目 录 配 额 是 一 个 长 整 
型 整数 ， 强 制 限定 了 目录 树 下 的 名 字 个 数 。 

命令 会 在 这 个 目录 上 工作 良好 ， 以 下 情况 会 报错 : N 不 是 一 个 
正 整数 , 用户 不 是 管理 员 ; 这 个 目录 不 存在 或 是 文件 ， 目 录 会 
马上 超出 新 设 定 的 配额 

为 每 一 个 目录 <dimame> 清 除 配额 设 定 。 

命令 会 在 这 个 目录 上 工作 良好 ， 以 下 情况 会 报错 : 这 个 目录 不 
存在 或 是 文件 : 用 户 不 是 管理 员 。 如 果 目 录 原 来 没有 配额 ， 则 


-setQuota «quota» <dimame>... 


<dirname> 





-clrQuota <dirname>...<dirname> 








会 报错 
-setStoragePolicy <path> <policyName> | 设置 文件 或 目录 的 存储 策略 
-getStoragePolicy <path> 获取 文件 或 目录 的 存储 策略 
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数据 
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续 表 
说 BA 





-metasave filename 


终止 HDFS 的 升级 操作 。DataNode 删除 前 一 个 版 本 的 工作 目 
录 ， 之 后 NameNode 也 这 样 做 。 这 个 操作 终结 整个 升级 过 程 

保存 NameNode 的 主要 数据 结构 到 hadoop.log.dir 属性 指定 的 
目录 下 的 <filename> 文 件 。 对 于 下 面 的 每 一 项 ，<filename> 中 
都 会 有 一 行内 容 与 之 对 应 : NameNode 收 到 的 DataNode 的 心 
跳 信号 ; 等 待 被 复制 的 块 ; 正在 被 复制 的 块 ; 等待 被 删除 的 块 





-refreshServiceAcl 
-refreshCallQueue 

-refresh «hostiipe port» <key> 
[arg1..argn] 

-printTopology 


-refreshNamenodes datanodehost:port 


-setBalancerBandwidth 
*bandwidth in bytes per second 
-fetchImage <local directory 
-shutdownDatanode 

«datanode hostiipc port» [upgrade] 
-getDatanodeInfo 

«datanode hostipc port- 


刷新 服务 级 别 的 授权 策略 文件 

刷新 来 自 配 置 中 的 调用 (ca 内 队列 

触发 一 个 在 运行 时 刷新 的 由 <host:ipce_port> 上 的 <key> 指 定 的 
资源 ， 剩 余 参数 随后 被 发 送 给 主机 

根据 NameNode 报告 打印 机 架 和 节点 树 

对 于 给 定 的 数据 节点 , 重新 加 载 配置 文件 ,停止 服务 已 删除 的 
数据 块 池 ， 开 始 新 的 数据 块 池 服 务 

更 改 数据 节点 所 使 用 的 负载 均衡 网 络 带 宽 ， 该 值 将 履 盖 
dfs.balance.bandwidthPerSec 的 参数 值 

从 NameNode 中 下 载 最 新 的 fsimage， 保 存 到 指定 的 本 地 路 径 


提交 关机 请 求 给 指定 的 DataNode 


获得 指定 DataNode 的 信息 


dfsadmin 命令 的 使 用 示例 如 图 3-3 所 示 。 


[ rootümaster ~]# hdfs dfsadmin -printTopology 
Rack: /default-rack 

192. 168. 221. 130: 50010 (slavel. hadoop) 

192. 168. 221. 131: 50010 (slave2. hadoop) 

192. 168. 221. 132: 50010 (slave3. hadoop) 


图 3-3 dfsadmin 命令 的 使 用 示例 


6. hdfs cacheadmin 


管理 员 和 用 户 通过 “hdfs cacheadmin” 命 令 管理 缓存 资源 。 





缓存 指令 

















一 个 唯一 的 无 重复 的 64 位 整数 ID 来 标识 。 即使 缓存 指令 后 来 被 删除 了 , ID 





也 不 会 重复 使 用 。 缓 存 池 由 一 个 唯一 的 字符 串 名 称 来 标识 。 


(1) 增加 缓存 : addDirective。 


用 法 : hdfs cacheadmin -addDirective -path <path> -pool <pool-name> [-force] [-replication 


<replication>] [-ttl <time-to-live>] 
参数 说 明 见 表 3-5。 
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表 3-5 addDirective 的 参数 说 明 











参 数 说 BH 
-path 要 缓存 的 路 径 。 该 路 径 可 以 是 文件 夹 或 文件 
-pool 要 加 入 缓存 指令 的 缓存 池 。 我 们 必须 对 该 缓存 池 有 写 权 限 ， 以 便 添加 新 的 缓存 指令 
-force 强制 执行 ， 不 检查 缓存 池 的 资源 限制 


-replication 要 使 用 的 缓存 副本 因子 ， 默 认为 1 
缓存 指令 可 以 保持 有 效 多 长 时 间 。 可 以 按照 分 钟 ,小 时 ,天 来 指定 ， 如 30m,4h,24。 有 效 





-ttl 单位 为 [smhd]。never 表示 永 不 过 期 的 指令 。 如 果 未 指定 该 值 ， 那 么 ， 缓 存 指令 就 不 会 
过 期 





(2) 删除 一 个 缓存 : removeDirective。 

用 法 : hdfs cacheadmin -removeDirective <id> 

参数 id 指定 要 删除 的 缓存 指令 的 ID。 删除 时 ， 必 须 对 该 指令 的 缓存 池 拥有 写 权限 。 
G) 删除 指定 路 径 下 的 每 一 个 缓存 : removeDirectives。 

用 法 : hdfs cacheadmin -removeDirectives <path> 

参数 path 中 设置 要 删除 的 缓存 指令 的 路 径 。 删除 时 必须 对 该 指令 的 缓存 池 拥 有 写 权 限 。 
(4) 缓存 列表 : listDirectives。 

用 法 : hdfs cacheadmin -listDirectives [-stats] [-path <path>] [-pool <pool>] 

参数 说 明 见 表 3-6。 

















表 3-6 listDirectives 的 参数 说 明 


说 BB 
只 列 出 带 有 该 路 径 的 缓存 指令 。 注 意 ， 如 果 路 径 path 在 缓存 池 中 有 一 条 或 多 条 没有 读 权 限 
的 缓存 指令 ， 那 么 它 就 不 会 被 列 出 来 
只 列 出 该 缓存 池内 的 缓存 指令 
列 出 基于 path 的 缓存 指令 统计 信息 
(5) 新 增 缓存 池 : addPool。 
用 法 : hdfs cacheadmin -addPool <name> [-owner <owner>] [-group <group>] [-mode 


<mode>] [-limit <limit>] [-maxTt <maxTtl> 
参数 说 明 见 表 3-7。 





表 3-7 addPool 的 参数 说 明 


参 数 说 明 


mme — | 新 缓存 池 的 名 称 








ower | 该 缓存 池 所 有 者 的 名 称 。 默 认为 当前 用 户 
缓存 池 所 属 的 组 。 默 认为 当前 用 户 的 主要 组 名 











US Qu 


pj 
E 
续 表 
$ 5 说 BA 


-limit | 在 该 缓存 池内 由 指令 总 计 缓 存 的 最 大 字 节 数 。 默 认 不 设 限 制 








添加 到 该 缓存 池 的 指令 的 最 大 生存 时 间 。 该 值 以 秒 ,分 ,时 ,天 的 格式 来 表示 , 如 120s,30m,4h, 
2d。 有 效 单位 为 [smhd]。 默 认 不 设 最 大 值 。never 表示 没有 限制 


-maxTtl 





(6) 修改 缓存 池 : modifyPool. 

用 法 : hdfs cacheadmin -modifyPool <name> [-owner <owner>] [-group <group>] [-mode 
<mode>] [-limit <limit>] [-maxTtl <maxTtl>] 

参数 说 明 见 表 3-8. 


表 3-8 modifyPool 的 参数 说 明 








参 数 说 明 
name 要 修改 的 缓存 池 的 名 称 
-owner 该 缓存 池 所 有 者 的 名 称 
-grouj 缓存 池 所 属 的 组 
-mode 以 Unix 风格 表示 的 该 缓存 池 的 权限 。 八 进 制 数 形式 
-limit 在 该 缓存 池内 要 缓存 的 最 大 字 节 数 
-maxTtl 添加 到 该 缓存 池 的 指令 的 最 大 生存 时 间 


(7) 删除 缓存 池 : removePool. 
用 法 : hdfs cacheadmin -removePool <name> 
参数 name 指定 要 删除 的 缓存 池 的 名 称 。 
(8) 缓存 池 列表 : listPools. 
用 法 : hdfs cacheadmin -listPools [-stats] [<name>] 
参数 说 明 见 表 3-9。 
表 3-9 addPool 的 参数 说 明 


2 UH 说 明 
若 指定 ， 则 仅 列 出 该 缓存 池 的 信息 








显示 额外 的 缓存 池 统 计 信 息 


7. hdfs balancer [-threshold <threshold>] [-policy <policy>] 

HDFS 集群 非常 容易 出 现 机 器 与 机 器 之 间 磁 盘 利用 率 不 平衡 的 情况 , 尤其 是 增加 新 的 数 
据 节点 时 。 保 证 HDFS 中 的 数据 平衡 非常 重要 。HDFS 出 现 不 平衡 的 状况 将 引发 很 多 问题 ， 
比如 MapReduce 程序 无 法 很 好 地 利用 本 地 计算 的 优势 、 机 器 之 间 无 法 达到 更 好 的 网 络 带宽 
使 用 率 等 。 

在 Hadoop F, 包含 一 个 Balancer 程序 , 可 以 调节 HDFS 集群 平衡 的 状态 ,启动 Balancer 
服务 时 ， 界 面 如 图 3-4 所 示 。 











Q«- is "—Ó————— —— — —— Hep 


$832 HDFS 操作 实践 (人 


rootümaster sbin]& jps 
[3488 ResourceManager 
[3353 SecondaryNameNode 
4812 Bootstrap 
7428 Jps 
rootümaster sbin]f sh start-balancer. sh 
starting balancer, logging to /root/hadoop/hadoop/Llogs/hadoop- root- balancer-master. hadoop. out 
rootümaster sbin]# jps 
[3488 ResourceManager 
[3353 SecondaryNameNode 
4812 Bootstrap 





3-4 启动 Balancer 服务 
服务 启动 后 ， 集 群 管理 人 员 可 用 balancer 命令 进行 分 析 和 再 平衡 数据 ， 如 图 3-5 所 示 。 


root@master sbin]& hdfs balancer --help 
Usage: java Balancer 
















[ -policy <policy>] the balancing policy: datanode or blockpool 

[ -threshold <threshold>] Percentage of disk capacity 

[ -exclude [-f «hosts-file» | comma-sperated list of hosts]] Excludes the specified da 
tanodes, 

[-include [-f <hosts-file> | comma-sperated list of hosts]] Includes only the specifi 


led datanodes. 


neric options supported are 

-conf «configuration file» specify an application configuration file 

-D «property-value» use value for given property 

-fs «local| namenode: port» specify a namenode 

-jt «local| resourcemanager: port» specify a ResourceManager 

-files «comma separated list of files» specify comma separated files to be copied to the map r 
leduce cluster 

-libjars «comma separated list of jars» specify comma separated jar files to include in the cl 
lasspath. 

-archives «comma separated list of archives» specify comma separated archives to be unarchived 
on the compute machines. 


e general command line syntax is 
Ibin/hadoop command [genericOptions] [ commandOptions] 


3-5 可 用 balancer 命令 进行 分 析 和 再 平衡 数据 


参数 threshold 是 判断 集群 是 否 平衡 的 目标 参数 ， 表 示 HDFS 达到 平衡 状态 的 磁盘 使 用 
率 偏差 值 。 默 认 设置 为 10, 参数 取 值 范围 是 0~100。 如 果 机 器 之 间 磁 盘 使 用 率 偏差 小 于 10%, 
我 们 就 认为 HDFS 集群 已 经 达到 了 平衡 的 状态 。 


8. hdfs version 
hdfs version 命令 用 于 查看 当前 系统 的 版 本 ， 运 行 示例 如 图 3-6 所 示 。 


root@test ~]# hdfs version 
Hadoop 2.6.0 
Subversion Unknown -r Unknown 
Compiled by root on 2014-12-23T03: 59Z 
Compiled with protoc 2.5.0 
From source with checksum 18e43357c8f927c0695f11e9522859d6a 
[This command was run using /root/hadoop/hadoop/share/hadoop/ common/ hadoop- common-2. 6. 0. jar 
[ rootütest -1# lj 

















3-6 使 用 hdfs version 命令 查看 当前 系统 的 版 本 


pj 


= 


eg hares 


3.1.2 Java 接口 操作 


由 于 Hadoop 本 身 就 是 使 用 Java 语言 编写 的 ， 理 论 上 ， 通 过 Java API 能 够 调用 所 有 的 
Hadoop 文件 系统 的 操作 接口 。 

Hadoop 有 一 个 抽象 的 文件 系统 概念 ,在 Java 抽象 类 org.apache.hadoop.fs 中 定义 了 接口 。 
只 要 某 个 文件 系统 实现 了 这 个 接口 ， 那 么 ， 它 就 可 以 作为 Hadoop 支持 的 文件 系统 。 目 前 
Hadoop 能 够 支持 的 文件 系统 如 表 3-10 所 示 。 


表 3-10 Hadoop 文件 类 的 实现 














Java 实现 


文件 系统 说 明 


(org.apache.hadoop) 





支持 有 客户 端 校 验 和 的 本 地 文件 系 
Local fs.LocalFileSystem 统 。 没 有 校 验 和 的 本 地 文件 系统 在 
fs.RawLocalFileSystem 中 实现 

Hadoop 的 分 布 式 文件 系统 。 将 HDFS 
HDFS hdfs.DistributionFileSystem 设计 成 与 MapReduce 结合 使 用 以 实现 
高 性 能 

支持 通过 HTTP 方式 以 只 读 的 方式 访 
问 HDFS 

支持 通过 HTTPS 方式 以 只 读 的 方式 访 
问 HDFS 

构建 在 Hadoop 文件 系统 之 上 ,对 文件 
进行 归档 。Hadoop 归档 文件 主要 用 来 
减少 NameNode 的 内 存 使 用 


Cloudstore 文件 系统 是 类 似 于 HDFS 和 
KFS fs.kfs.KosmosFileSystem Google 的 GFS 文件 系统 ， 用 CH 编写 
FTP 由 FTP 服务 器 支持 的 文件 系统 
S3( 本 地 ) fs.s3native.NativeS3FileSystem 基于 Amazon S3 的 文件 系统 


基于 Amazon S3 的 文件 系统 ， 以 块 格式 
存储 解决 了 S3 的 SGB 文件 大 小 的 限制 


在 Hadoop 中 ， 主 要 是 定义 了 一 组 分 布 式 文件 系统 和 通用 的 IO 组 件 和 接口 ，Hadoop 
的 文件 系统 准确 地 应 该 称 作 Hadoop LO. 而 HDFS 是 实现 该 文件 接口 的 Hadoop 自 带 的 分 布 
式 文件 项 目 ， 是 对 Hadoop LO 接口 的 实现 。 在 处 理 大 数据 集 时 ， 为 实现 最 优 性 能 ， 通 常 使 
用 HDFS 存储 。 

org.apache.hadoop.fs 包 由 接口 类 (FsConstants、Syncable 等 )、Java 类 (AbstractFileSystem、 
BlockLocation、FileSystem、FileUtil、FSDataInputStream 等 )、 枚 举 类 型 (如 CreateFlag)、 异 
常 类 (ChecksumException、InvalidPathException 等 ) 和 错误 类 (如 FSError) 组 成 。 每 个 子 对 象 
中 都 定义 了 相应 的 方法 ， 通 过 对 org.apache.hadoop.fs 包 的 封装 与 调用 ， 可 以 拓展 HDFS 应 


HFTP 


HSFTP 





S3( 基 于 块 ) fs.s3.NativeS3FileSystem 
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用 ， 更 好 地 帮助 用 户 使 用 集群 海量 存储 。 

在 介绍 Java 接口 操作 之 前 ， 先 介绍 几 个 常用 的 Java 类 。 

(1) FileSystem. 

org.apache.hadoop fs.FileSystem， 通 用 文件 系统 基 类 ， 用 于 与 HDFS 文件 系统 交互 ， 编 
写 的 HDFS 程序 都 需要 重 写 FileSystem 类 。 通过 FileSystem, 可 以 非常 方便 地 像 操作 本 地 文 
件 系 统一 样 操作 HDFS 集群 文件 。 

FileSystem 提供 了 get 方法 ， 一 个 是 通过 配置 文件 获取 与 HDFS 的 连接 ; 一 个 是 通过 
URL 指定 配置 文件 ， 获 取 与 HDFS 的 连接 ，URL 的 格式 为 hdfs://namenode/xxx.xml。 

方法 的 原型 如 下 : 


public static FileSystem get (Configuration conf) throws IOException; 

public static FileSystem get (URI uri, Configuration conf) throws IOException; 

public static FileSystem get(final URI uri, final Configuration conf, final 
String user) throws IOException, InterruptedException; 


其 中 , Configuration(org.apache .hadoop.conf Configuration) 类 对 象 封装 了 客户 端 或 服务 器 
的 配置 ，URI 是 指 文件 在 HDFS 里 存放 的 路 径 。 

(2) FSDataInputStream 。 

org.apache.hadoop.fs.FSDataInputStream, 文件 输入 流 ， 用 于 读 取 HDFS 文件 , 它 是 Java 
中 DataInputStream 的 派生 类 ， 支 持 从 任意 位 置 读 取 流 式 数据 。 

常用 的 读 取 方法 是 从 指定 的 位 置 ， 读 取 指 定 大 小 的 数据 至 缓存 区 。 方 法 如 下 所 示 : 


int read(long position, byte[] buffer, int offset, int length) 


还 有 用 于 随时 定位 的 方法 ， 可 以 定位 到 指定 的 读 取 点 ， 如 下 所 示 : 

void seek(long desired) 

通过 long getPos() 方 法 ， 还 可 以 获取 当前 的 读 取 点 。 

(3) FSDataOutputStream. 

org.apache.hadoop.fs.FSDataOutputStream, 文件 输出 流 , 是 DataOutputStream 的 派生 类 ， 
通过 这 个 类 ， 能 够 向 HDFS 顺序 写 入 数据 流 。 

通常 的 写 入 方法 为 write， 如 下 所 示 : 

public void write (int b) 

获取 当前 写 入 点 的 函数 为 long getPos()。 

(4) Path. 

org.apache.hadoop.fs.Path， 文 件 与 目录 定位 类 ， 用 于 定义 HDFS 集群 中 指定 的 目录 与 文 
件 绝对 或 相对 路 径 。 

可 以 通过 多 种 方式 构造 Path， 如 通过 URL 的 模式 ， 通 常 编写 方式 为 : 

hdfs://ip:port/directory/filename 

Path 可 以 与 FileSystem 的 open 函数 相关 联 ， 通 过 Path 构造 访问 路 径 , 用 FileSystem 进 
行 访问 。 

(5) FileStatus. 

org.apache.hadoop.fs.FileStatus, 文件 状态 显示 类 , 可 以 获取 文件 与 目录 的 元 数据 、 长度、 
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块 大 小 、 所 属 用 户 、 编 辑 时 间 等 信息 ， 同 时 ， 可 以 设置 文件 用 户 、 权 限 等 内 容 。 
FileStatus 有 很 多 get 与 set 方法 ， 如 获取 文件 长 度 的 long getLen0 方 法 、 设 置 文件 权限 
的 setPermission(FsPermission permission) 方 法 等 。 


下 面 ， 我 们 开始 Hadoop 的 Java 操作 之 旅 。 
1. 创建 文件 
FileSystem 类 里 提供 了 很 多 API， 用 来 创建 文件 ， 其 中 ， 最 简单 的 一 个 是 : 


public FSDataOutputStream create(Path f) throws IOException; 


它 创 建 一 个 Path 类 代表 的 文件 ， 并 返回 一 个 输出 流 。 这 个 方法 有 多 个 重 载 方法 ， 可 以 
用 来 设置 是 否 覆 盖 已 有 文件 、 该 文件 复制 的 份 数 、 写 入 时 的 缓冲 区 大 小 、 文 件 块 大 小 (bloclo)、 
权限 等 。 默 认 情 况 下 ， 如 果 Path 中 文件 的 父 目 录 ( 或 者 更 上 一 级 目录 ) 不 存在 ， 这 些 目录 会 
被 自动 创建 。 


2. 读 取 数 据 


通过 调用 FileSystem 实例 的 open 方法 打开 文件 ， 得 到 一 个 输入 流 。 下 面 是 使 用 
FileSystem 类 读 取 HDFS 中 文件 内 容 的 完整 程序 : 


import java.net.URI; 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FSDataInputStream; 
import org.apache.hadoop.fs.FileSystem; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.IOUtils; 
public class FileSystemCat ( 
public static void main(String[] args) throws Exception { 
String uri - args[0]; 
Configuration conf = new Configuration(); 
FileSystem fs - FileSystem.get(URI.create(uri), conf); 
FSDataInputStream in - null; 
try ( 
in = fs.open(new Path (uri)); 
IOUtils.copyBytes(in, System.out, 4096, false); 
) finally ( 
IOUtils.closeStream(in); 
} 


} 


此 外 ，FSDataInputStream 类 同时 也 实现 了 PositionedReadable(org.apache.hadoop fs. 
PositionedReadable) 接 口 ， 接 口中 定义 的 三 个 方法 允许 在 任意 位 置 读 取 文件 的 内 容 : 


public int read (long position, byte[] buffer, int offset, int length) throws IOException; 
public void readFully(long position, byte[] buffer, int offset, int length) 

throws IOException; 
public void readFully(long position, byte[] buffer) throws IOException; 


结合 第 2 章 内 容 ， 下 面 我 们 结合 程序 实现 深入 剖析 HDFS 读 文 件 时 的 数据 流向 过 程 。 

(1) 客户 端 通过 调用 FileSystem.open() 方 法 打开 一 个 文件 ， 对 于 HDFS 来 讲 ， 其 实 是 调 
用 DistributedFileSystem 实例 的 open 方法 。 

(2) DistributedFileSystem 通过 远程 方法 调用 访问 NameNode， 获 取 该 文件 的 前 几 个 
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blocks 所 在 的 位 置信 息 ; 针对 每 个 block，NameNode 都 会 返回 有 该 block 数据 信息 的 所 有 
DataNodes 节点 ， 比 如 配置 的 dfsreplication 为 3， 就 会 每 个 block 返回 3 个 DataNodes 节点 
信息 ， 这 些 节 点 是 按 距离 客户 端的 远近 排序 的 ， 如 果 发 起 读 文件 的 客户 端 就 在 包含 该 block 
的 DataNode 上 ， 那 么 这 个 DataNode 就 排 第 一 位 (这 种 情况 在 做 Map 任务 时 常见 )， 客 户 端 
就 会 从 本 机 读 取 数 据 。 

DistributedFileSystem 的 open 方法 返回 一 个 FSDataInputStream, FSDataInputStream H 
包装 着 一 个 DFSInputStream，DFSInputStream 真正 管理 DataNodes 和 NameNode 的 IO。 

(3) 客户 端 调用 FSDataInputStream read() 方 法 ，FSDataInputStream 里 已 经 缓存 了 该 文 
件 前 几 个 block 所 在 的 DataNode 的 地 址 ， 于 是 ， 从 第 一 个 block 的 第 一 个 地 址 (也 就 是 最 近 
的 DataNode) 开 始 连接 读 取 。 

(4) 反复 调用 read0) 方 法 ， 数 据 不 断 地 从 DataNode 流向 客户 端 。 

(5) 当 一 个 block 的 数据 读 完 时 ，DFSInputStream 会 关闭 当前 DataNode 的 连接 ， 打 开 
下 一 个 block 所 在 的 最 优 DataNode 的 连接 继续 读 取 ;， 这些 对 客户 端 是 透明 的 ， 在 客户 端 看 
来 ， 就 是 在 读 一 个 连续 的 流 。 

(6) 这 样 ， 一 个 block 一 个 block 地 读 下 去 ， 当 需要 使 用 更 多 block 的 存储 信息 时 ， 
DFSInputStream 会 再 次 调用 NameNode， 获 取 下 一 批 block 的 存储 位 置信 息 ， 直 到 客户 端 停 
止 读 取 ， 调 用 FSDataInputStream.close0 方 法 ， 整 个 读 取 过 程 结束 。 





ug 











文件 操作 还 可 以 使 用 Hadoop URL 的 方式 ， 示 例 代码 如 下 : 


import java.io.InputStream; 

import java.net.URL; 

import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; 
import org.apache.hadoop.io.IOUtils; 





public class URLCat { 
static ( 
URL.setURLStreamHandlerFactory (new FsUrlStreamHandlerFactory()); 
) 
public static void main(String[] args) throws Exception { 
InputStream in - null; 
try ( 
in = new URL (args[0]).openStream(); 
IOUtils.copyBytes(in, System.out, 4096, false); 
) finally ( 
IOUtils.closeStream(in); 
} 


} 


在 上 面 的 程序 中 ， 先 设置 URLStreamHandlerFactory， 然 后 通过 URL 打开 一 个 流 , 读 取 
流 ， 就 得 到 了 文件 的 内 容 ， 通 过 IOUtils.copyBytes() 把 读 到 的 内 容 写 出 到 标准 输出 流 里 ， 也 
就 是 控制 台 上 ， 从 而 实现 了 类 似 于 Linux 里 的 cat 命令 的 功能 。 最 后 关闭 输入 流 。 


ejs 从 基础 理论 到 最 佳 实践 


3. 写 入 数据 


与 读 操 作 类 似 ，Hadoop 对 于 写 操作 也 提供 了 一 个 类 : FSDataOutputStream， 这 个 类 重 
载 了 很 多 java.io.DataOutputStream 的 write 方法 , 用 于 写 入 很 多 类 型 的 数据 ， 比 如 int, char, 
字 节 数组 等 。 

HDFS 写 文 件 的 示例 代码 如 下 : 

FileSystem hdfs = FileSystem.get (new Configuration()); 

Path path = new Path("/testfile"); 


FSDataOutputStream dos = hdfs.create (path); 
byte[] readBuf = "Hello World".getBytes ("UTF-8"); 
dos.write(readBuf, 0, readBuf.length); 
dos.close(); 

hdfs.close(); 


如 果 和 希望 向 已 有 文件 追加 内 容 ， 可 以 调用 : 
public FSDataOutputStream append(Path f) throws IOException; 


如 果 文 件 不 存在 时 ，append 方法 也 可 以 用 来 新 建 一 个 文件 。 

下 面 ， 我 们 结合 以 上 的 程序 ， 深 入 剖析 HDFS 写 文件 时 的 数据 流向 过 程 。 

(1) 客户 端 调 用 DistributedFileSystem.create() 方 法 创建 一 个 文件 。 

(2) DistributedFileSystem 向 NameNode 发 起 远程 方法 调用 ， 创 建 一 个 文件 ， 但 是 ， 
NameNode 没有 把 它 关 联 到 任何 block 上 去 ;NameNode 在 这 一 步 做 了 很 多 检查 工作 ， 保 证 
该 文件 当前 不 存在 ， 客 户 端 有 创建 该 文件 的 权限 等 。 如 果 这 些 检查 都 通过 了 ，NameNode 
创建 一 条 新 文件 记录 ; 和 否则， 创建 失败 ， 客 户 端 返 回 IOException。DistributedFileSystem 返 
回 一 个 FSDataOutputStream， 像 读 文件 时 一 样 ， 这 个 FSDataOutputStream 里 包装 着 一 个 
DFSOutputStream， 由 它 来 实际 处 理 与 DataNodes 和 NameNode 的 通信 。 

(3) 客户 端 向 DFSOutputStream 里 写 数 据 ，DFSOutputStream 把 数据 分 成 包 ， 丢 进 一 个 
称 为 data queue 的 队列 中 。DataStreamer 负责 向 NameNode 申请 新 的 block, 新 的 block 被 分 
配 在 了 一 个 或 多 个 (默认 为 3 个 ) 节 点 上 ， 这 些 节点 就 形成 一 个 管道 。 

(4) DataStreamer 把 data queue 里 的 包 拿 出 来 ， 通 过 管道 输送 给 第 1 个 节点 ， 第 1 个 节 
点 再 通过 管道 输送 给 第 2 个 节点 ， 第 2 个 再 输送 给 第 3 个 。 以 此 类 推 。 

(5) DFSOutputStream 同时 还 在 内 部 维护 一 个 通知 队列 ， 名 叫 ack queue， 里 面 保存 发 
过 的 数据 包 。 一 个 包 只 有 被 所 有 管道 上 的 DataNodes 通知 收 到 了 ， 才 会 被 移 除 。 如 果 任 意 
一 个 DataNode 接收 失败 了 ， 首 先 ， 管 道 关 闭 ， 然 后 把 ack queue 里 的 包 都 放 回 到 data queue 
的 头 部 ， 以 便 使 失败 节点 的 下 游 节点 不 会 丢失 这 些 数 据 。 打 开 管 道 ， 把 坏 节点 移 除 ， 数 据 
会 继续 向 其 他 好 节点 输送 ， 直 到 管道 上 的 节点 都 完成 了 。 如 果 少 复制 了 一 个 节点 ， 向 
NameNode 报告 一 下 ， 说 现在 这 个 block 没有 达到 设 定 的 副本 数 ， 然 后 就 返回 成 功 了 ， 后 
期 ，NameNode 会 组 织 一 个 异步 的 任务 ， 把 副本 数 恢复 到 设 定 值 。 然 后 ， 接 下 来 的 数据 包 
和 数据 块 正 常 写 入 。 

如 果 多 个 DataNodes 都 失败 了 , 会 检测 hdfs-site .xml 里 的 dfs.replication.min 参数 ， 默 认 
值 是 1， 意思 是 只 要 有 1 个 DataNode 接收 成 功 ， 就 认为 数据 写 入 成 功 了 。 客 户 端 就 会 收 到 
写 入 成 功 的 返回 。 后 期 ，Hadoop 会 发 起 异步 任务 把 副本 数 恢 复 到 dfs.replication 设置 的 值 。 
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以 上 操作 对 客户 端 都 是 透明 的 ， 客 户 端 不 知道 发 生 了 这 些 事情 ， 只 知道 写 文件 成 功 了 。 

(6) 当 客 户 端 完 成 数据 写 入 后 ， 调 用 流 的 close() 方 法 , 这 个 操作 把 data queue 里 的 所 有 
剩余 的 包 都 发 给 管道 。 

(7) 等 所 有 包 都 收 到 了 写成 功 的 反馈 后 ， 客 户 端 通知 NameNode 写 文件 完成 了 。 因 为 
DataStream 写 文件 前 就 先 向 NameNode 申请 block 的 位 置信 息 了 ， 所 以 写 文件 完成 时 ， 
NameNode 已 知道 每 个 block 的 位 置信 息 , 它 只 需 等 最 小 的 副本 数 写成 功 , 就 可 以 返回 成 功 。 


4. 文件 读 写 位 置 


读 取 文件 时 (FSDataInputStream)， 人 允许 使 用 seek() 方 法 在 文件 中 定位 。 支 持 随机 访问 ， 
理论 上 ， 可 以 从 流 的 任何 位 置 读 取 数 据 ， 但 调用 seek() 方 法 的 开销 是 相当 巨大 的 ， 应 该 尽量 
少 调用 ， 尽 可 能 地 使 程序 做 到 顺序 读 。 

由 于 HDFS 只 允许 对 一 个 打开 的 文件 顺序 写 入 ， 或 向 一 个 已 有 文件 的 尾部 追加 ， 不 允 
许 在 任意 位 置 写 ，FSDataOutputStream 没有 seek 方法 。 但 FSDataOutputStream 类 提供 了 一 
个 getPos( 方 法 ， 可 以 查询 当前 在 往 文件 的 哪个 位 置 写 的 写 入 偏 移 量 : 


public long getPos() throws IOException; 


5. 重 命名 
通过 FileSystem.rename() 方 法 ， 可 为 指定 的 HDFS 文件 重 命名 : 


protected void rename (Path src, Path dst, Options) throws IOException; 


示例 代码 实现 如 下 : 


Configuration conf = new Configuration(); 
FileSystem hdfs = FileSystem.get (conf); 

Path frpath = new Path("/test"); // 旧 的 文件 名 
Path topath = new Path("/testNew"); // 新 的 文件 名 
boolean isRename = hdfs.rename(frpath, topath); 
String result = isRename? "WHJ" : "失败 "; 








6. 删除 操作 
通过 FileSystem.delete() 方 法 删除 指定 的 HDFS 文件 或 目录 (永久 删除 ): 


public boolean delete(Path f, boolean recursive) throws IOException; 


其 中 , f 为 需要 删除 文件 的 完整 路 径 ，recursive 用 来 确定 是 否 进 行 递 归 删 除 。 如 果 f 是 
一 个 文件 或 空 目录 ， 则 不 论 recursive 是 何 值 ， 都 删除 。 如 果 f 是 一 个 非 空 和 目录 ， 则 recursive 
为 true 时 ， 目 录 下 内 容 全 部 删除 ， 如 果 recursive 为 false， 不 删除 ， 并 抛 出 IOException。 
示例 代码 实现 如 下 : 


Path f = new Path(fileName); 

boolean isExists - hdfs.exists(f); 

if (isExists) ( //if exists, delete 
boolean isDel - hdfs.delete(f, true); 
System.out.println(fileName + " delete? Nt" + isDel); 

) else ( 
System.out.println(fileName + " exist? Mt" + isExists); 
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7. 文件 夹 操 作 
FileSystem 中 创建 文件 夹 的 方法 如 下 : 


public boolean mkdirs(Path f) throws IOException; 


与 java.io.File.mkdirs 方法 一 样 ， 创 建 目 录 的 同时 ， 默 认 地 创建 缺失 的 父 目 录 。 我 们 一 
般 不 需要 创建 目录 ， 一 般 在 创建 文件 时 ， 默 认 地 就 把 所 需 的 目录 都 创建 好 了 。 
目录 创建 的 示例 代码 实现 如 下 : 
Configuration conf = new Configuration(); 
FileSystem fs = FileSystem.get (conf); 
Path srcPath - new Path(path); 
boolean isok = fs.mkdirs (srcPath); 
if(isok) ( 
System.out.println("create dir ok!"); 


) else ( 
System.out.println("create dir failure"); 


} 
fs.close(); 


使 用 FileSystem 的 listStatus() 方 法 能 够 列 出 某 个 目录 中 的 所 有 文件 : 


public FileStatus[] listStatus(Path f) throws IOException 
public FileStatus[] listStatus (Path f, PathFilter filter) throws IOException 
public FileStatus[] listStatus(Path[] files) throws IOException 
public FileStatus[] listStatus(Path[] files, PathFilter filter) 
throws IOException 


这 一 组 方法 都 接收 Path 参数 ， 如 果 Path 是 一 个 文件 ， 返 回 值 是 一 个 数组 ， 数 组 里 只 有 
一 个 元 素 ， 是 这 个 Path 代表 的 文件 的 FileStatus 对 象 ， 如果 Path 是 一 个 目录 ， 返 回 值 数组 
是 该 目录 下 的 所 有 文件 和 目录 的 FileStatus 组 成 的 数组 ， 有 可 能 是 一 个 0 长 数组 ， 如 果 参 数 
是 Path[]， 则 返回 值 相当 于 多 次 调用 单 Path， 然 后 把 返回 值 整合 到 一 个 数组 里 ， 如 果 参 数 中 
包含 PathFilter, 则 PathFilter 会 对 返回 的 文件 或 目录 进行 过 滤 , 返回 满足 条 件 的 文件 或 目录 ， 
条 件 由 开发 者 自行 定义 。 

FileSystem 的 globStatus 方法 利用 通配符 来 列 出 文件 和 目录 : 


public FileStatus[] globStatus(Path pathPattern) throws IOException; 
public FileStatus[] globStatus(Path pathPattern, PathFilter filter) 
throws IOException; 


文件 夹 删除 操作 与 文件 删除 类 似 。 
其 他 关于 文件 夹 的 操作 方法 还 有 FileSystem.getWorkingDirectory( 返 回 当 前 工作 目录 )、 
FileSystem.setWorkingDirectory( 更 改 当 前 工作 目录 ) 等 。 


8. 属性 操作 


FileSystem 类 中 的 getFileStatus() 方 法 返回 一 个 FileStatus 实例 , 该 FileStatus 实例 中 , 包 
含 了 该 Path( 文 件 或 目录 ) 的 元 数据 信息 : 文件 大 小 、block 大 小 、 复 制 的 份 数 、 最 后 修改 时 
间 、 所 有 者 、 权 限 等 。 示 例 代 码 实 现 如 下 : 


FileStatus status = fs.getFileStatus (path); 
System.out.println("path = " + status.getPath()); 
System.out.println("owner = " + status.getOwner()); 
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System.out.println("block size ”+ status.getBlockSize()); 
System.out.println ("permission " + status.getPermission()); 
System.out.println("replication = " + status.getReplication()); 


3.1.3 WebHDFS 


Hadoop 提供 的 Java Native API 支 持 对 文件 或 目录 的 操作 , 为 开发 者 提供 了 极 大 的 便利 。 
为 满足 许多 外 部 应 用 程序 操作 HDFS 文件 系统 的 需求 ，Hadoop 提供 了 两 种 基于 HTTP 方式 
的 接口 : 一 是 用 于 浏览 文件 系统 的 Web 界面 ， 另 一 个 是 WebHDFS REST API 接口 。 

启动 HDFS 时 , NameNode 和 DataNode 各 自 启 动 了 一 个 内 置 的 Web 服务 器 ， 显 示 了 集 
群 当前 的 基本 状态 和 信息 。 默 认 配置 下 NameNode 的 首页 地 址 是 http://namenode-name:50070/。 
这 个 页 面 列 出 了 集群 里 的 所 有 DataNode 和 集群 的 基本 状态 。 

这 个 Web 界面 也 可 以 用 来 浏览 整个 文件 系统 。 使 用 NameNode 首页 上 的 Browse the file 
system 链接 ， 输 入 需要 查看 的 目录 地 址 ， 即 可 看 到 ， 如 图 3-7 所 示 。 
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Browse the file syster 
Logs 





Browse Directory 








/ Gol 
Permission Owner Group Size Replication Block Size Name 
rr- root supergroup 0B 1 128 MB abc. txt 
drvar-xr-x root supergroup 0B 0 oB 
drwar-xr-x root suergop 0B 0 oB webhdf stest 

图 3-7 Web 界面 


WebHDFS 基于 HTTP， 通 过 GET、PUT、POST 和 DELETE 等 操作 ， 支 持 FileSystem/ 
FileContext 的 全 部 API。 有 具体 操作 类 型 见 表 3-11. 


表 3-11 WebHDFS 的 操作 
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续 表 
HTTP 方法 操作 命令 对 应 的 FileSystem 接口 

GETDELEGATIONTOKEN FileSystem.getDelegationToken 
GETDELEGATIONTOKENS FileSystem.getDelegationTokens 
GETXATIR FileSystem.getXAttr 

HTTP GET 
GETXATTRS FileSystem.getXAtttrs 
LISTXATIRS FileSystem.listXAttrs 
CHECKACCESS FileSystem.access 
CREATE FileSystem.create 
MKDIRS FileSystem.mkdirs 
CREATESYMLINK. FileContext.createSymlink 
RENAME FileSystem.rename. 
SETREPLICATION FileSystem.setReplication 
SETOWNER FileSystem.setOwner 
SETPERMISSION FileSystem.setPermission 

HTTP PUT 
SETTIMES FileSystem.setTimes 
RENEWDELEGATIONTOKEN FileSystem.renewDelegationToken 
CANCELDELEGATIONTOKEN FileSystem.cancelDelegationToken 
CREATESNAPSHOT FileSystem.createSnapshot 
RENAMESNAPSHOT FileSystem.renameSnapshot 
SETXATTR FileSystem.setXAttr 
REMOVEXATTR FileSystem.removeXAttr 
APPEND FileSystem.append 

HTTP POST 
CONCAT FileSystem.concat 
DELETE FileSystem.delete 

HTTP DELETE 
DELETESNAPSHOT FileSystem.deleteSnapshot 


在 使 用 WebHDFS REST API 4X 














前 ， 要 先 对 Hadoop 进行 配置 和 授权 认证 。 编 辑 


hdfs-site .xml 文件 ， 添 加 启用 WebHDFS(dfs.webhdfs.enabled) kerberos 验证 (dfs.web. 
authentication.kerberos.principal 、dfs.web.authentication.kerberos.keytab) 等 属性 配置 。 配 置 完 


成 后 ， 启 动 WebHDFS 服务 即 可 ， 如 图 





3-8 所 示 。 


WebHDFS 默认 的 HTTP 服务 端口 是 14000。 需 要 说 明 的 是 ，WebHDFS 的 FileSystem 
模式 是 “webhdfs://”，URI 的 格式 如 下 : 


webhdfs://<HOST>:<HTTP_PORT>/<PATH> 


与 之 对 应 的 HDFS URI 格式 如 下 : 


hdfs://<HOST>:<RPC_ PORT>/<PATH> 
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[rootütest sbin]# ./httpfs.sh start 


Setting HTTPFS HOME: / root/hadoop/hadoop 

Setting HTTPFS CONFIG: / root/hadoop/hadoop/etc/hadoop 

Sourcing: / root/hadoop/hadoop/etc/hadoop/httpfs- env. sh 
Setting HTTPFS LOG: / root/hadoop/hadoop/ logs 

Setting HTTPFS TEMP: / root/ hadoop/ hadoop/ temp 

Setting HTTPFS HTTP PORT: 14000 

Setting HTTPFS ADMIN PORT: 14001 


Setting HTTPFS HTTP HOSTNAME: test. hadoop 

Setting HTTPFS SSL ENABLED: false 

Setting HTTPFS SSL KEYSTORE FILE: / root/. keystore 

Setting HTTPFS SSL KEYSTORE PASS: password 

Setting CATALINA BASE: / root/hadoop/hadoop/ share/hadoop/httpfs/tomcat 
Setting HTTPFS CATALINA HOME: / root/hadoop/hadoop/ share/hadoop/httpfs/tomcat 
Setting CATALINA OUT: / root/hadoop/hadoop/ logs/httpfs- catalina. out 

Setting CATALINA PID: /tmp/httpfs. pid 


3-8 启动 WebHDFS 服务 


在 REST API 接口 中， 在 path 之 前 插入 前 级 “/webhdfs/v1”， 操 作 语句 被 追加 到 最 后 ， 
相应 的 HTTP URL 格式 如 下 : 
http: //«HOST»:«HTTP PORT»/webhdfs/v1/«PATH»?op- wid 


下 面 我 们 以 具体 实例 ， 来 测试 一 下 WebHDFS 的 功能 。 使 用 curl 命令 工具 在 HDFS ff 
目录 下 创建 一 个 名 为 “webdir” 的 目录 ， 如 图 3-9 所 示 。 


rootütest hadoop]# hdfs dfs -ls / 
Found 1 items 
drwxr-xr-x — - root supergroup 0 2016-03-10 04:42 /webhdfstest 
bdir?user. name- root&op- 


Server: Apache-Coyote/1. 1 
[set-Cookie: hadoop. auth-" u- root&p- root&t-simple&e-14575922223888 s-5pE/ nmf BgmkzgV2DqYOVAi teJ1 s-"; 
Path-/; Expires-  , 10- -2016 06:43:42 GMT; HttpOnly 


ontent-Type: application/json 
ransfer-Encoding: chunked 
Date: Wed, 09 Mar 2016 20:43:42 GMT 


(" boolean": true} 





Idrwxr-xr-x — - root supergroup 0 2016-03-10 04:43 /webdir 
drwxr-xr-x - root supergroup 0 2016-03-10 04:42 /webhdfstest 
rootütest hadoop]# 


图 3-9 WebHDFS 创建 目录 的 运行 结果 


3.1.4 其 他 接口 

HDFS 支持 的 使 用 接口 除了 前 面 介绍 过 的 Java 等 以 外 , 还 有 C、Thrift、HttpFS、HFTP、 
NFS 等 。 下 面 简单 介绍 几 种 。 

1.C 接口 

HDFS 基于 Java 编写 , 并 没有 提供 原生 的 C 语言 访问 接口 ,但 HDFS 提供 了 基于 JNI(Java 
Native Interface) 的 C 调用 接口 libhdfs, f C 语言 访问 HDFS 成 为 可 能 。 

libhdfs 接口 的 头 文件 和 库 文 件 已 包含 在 Hadoop 发 行 版 本 中 ， 可 以 直接 使 用 。 它 的 头 文 
fF hdfs.h 一 般 位 于 {HADOOP_HOME}/include 目录 中 ， 而 其 库 文件 libhdfs.so 通常 则 位 于 
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{HADOOP_HOME}/lib/native 目录 中 。 不 同 的 版 本 ， 库 文件 所 在 位 置 稍 有 不 同 。 

通过 libhdfs 访 问 HDFS 文 件 系 统 与 使 用 C 语 言 API 访 问 普通 操作 系统 的 文件 系统 类 似 。 
C++ 访问 HDFS 的 方式 也 与 C 语言 类 似 。 接 口 主要 如 下 。 

(1) 建立 、 关 闭 与 HDFS 连接 : hdfsConnect()、hdfsConnectAsUser()、hdfsDisconnect()。 

(2) 打开 、 关 闭 HDFS 文件 : hdfsOpenFile()、hdfsCloseFile()。 当 用 hdfsOpenFile0 创 建 
文件 时 ， 可 以 指定 replication 和 blocksize 参数 。 

(3) 读 HDFS 文件 : hdfsRead()、hdfsPread()。 

(4) 写 HDFS 文件 ， hdfsWrite0。HDFS 不 支持 随机 写 ， 只 能 是 从 文件 头 顺序 写 入 。 

(5) 查询 HDFS 文件 信息 : hdfsGetPathInfo(). 

(6) 查询 数据 块 所 在 节点 信息 : hdfsGetHosts0。 返 回 一 个 或 多 个 数据 块 所 在 数据 节点 
的 信息 ， 一 个 数据 块 可 能 存在 于 多 个 数据 节点 上 。 

libhdfs 中 的 函数 是 通过 JNI 调用 Java 虚拟 机 的 ， 在 虚拟 机 中 构造 对 应 的 HDFS 的 Java 
类 ， 然 后 反射 调用 该 类 的 功能 函数 ， 占 用 内 存 较 多 ， 不 适合 对 虚拟 要 求 较 高 的 场景 。 

下 面 是 一 个 简单 的 例子 : 

#include "hdfs.h" 

int main(int argc, char **argv) { 


hdfsFS fs = hdfsConnect("default", 0); 
const char *writePath - "/tmp/testfile.txt"; 
hdfsFile writeFile = 
hdfsOpenFile(fs, writePath, O WRONLY|O CREAT, 0, 0, 0); 
if(!writeFile) ( E E 
fprintf (stderr, "Failed to open $s for writing! Wn", writePath); 
exit(-1); 
) 
char *buffer - "Hello, World!"; 
tSize num written bytes - 
hdfsWrite(fs, writeFile, (void*)buffer, strlen(buffer)-41); 
if (hdfsFlush(fs, writeFile)) ( 
fprintf (stderr, "Failed to 'flush' $sMn", writePath); 
exit (-1); 
) 
hdfsCloseFile(fs, writeFile); 
} 


2. HFTP 


HFTP 是 一 个 可 以 实现 从 远程 HDFS 集群 读 取 Hadoop 文件 系统 数据 的 接口 。HFTP 默 
认 是 打开 的 ， 数 据 读 取 通 过 HTTP 协议 ， 人 允许 以 浏览 器 的 方式 访问 和 下 载 所 有 文件 。 这 种 
方式 带 来 便利 的 同时 ， 也 存在 一 定 的 安全 隐患 。 

HFTP 是 一 个 只 读 的 文件 系统 ,如 果 试 图 用 它 写 或 者 修改 文件 系统 的 状态 ， 将 会 抛 出 一 
个 错误 。 如 果 使 用 多 个 不 同 版 本 的 HDFS 集群 时 ， 需 要 在 集群 之 间 移动 数据 ，HFTP 是 非常 
有 用 的 。HFTP 在 不 同 HDFS 版 本 之 间 都 是 兼容 的 ， 通 常 与 distcp 结合 使 用 实现 并 行 复制 。 

HSFTP 是 HFTP 的 一 个 扩展 ， 默 认 使 用 HTTPS 在 传输 时 加 密 数 据 。 


3. HttpFS 
HttpFS 是 Cloudera 公司 提供 的 一 个 Web 应 用 ， 一 般 部 署 在 内 嵌 的 Web 服务 器 中 ， 但 
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独立 于 Hadoop 的 NameNode。 

HttpFS 是 提供 REST HTTP 接口 的 服务 器 ， 可 以 支持 全 部 HDFS 文件 系统 操作 。 通 过 
WebHDFS REST API， 可 以 对 HDFS 进行 读 写 等 访问 操作 。 与 WebHDFS 的 区 别 是 ， 不 需 
要 客户 端 ， 就 可 以 访问 Hadoop 集群 的 每 一 个 节点 。 

通过 HttpFS， 可 以 访问 放置 在 防火 墙 后 面 的 Hadoop 集群 数据 。HttpFS 可 以 作为 一 个 
网 关 角色 ， 是 唯一 可 以 穿 过 防火 墙 访问 内 部 集群 数据 的 系统 。 

HttpFS 的 内 置 安全 特性 支持 Hadoop 伪 身 份 验证 和 HTTP SPNEGO Kerberos 及 其 他 插件 
式 (pluggable ) 验 证 机 制 。 它 还 提供 了 对 Hadoop 代理 用 户 的 支持 。 


3.2 操作 实践 
前 面 主 要 介绍 了 HDFS 系统 接口 和 编程 方式 , 本 节 介 绍 HDFS 中 Java 编程 的 操作 实例 。 


3.2.1 文件 操作 


使 用 命令 行 编写 HDFS 程序 ， 通 常 有 三 个 步 又。 

首先 ， 编 写 HDFS 程序 源码 ， 并 通过 java 编译 器 编译 成 字 节 码 。 

然后 ， 将 字 节 码 打包 成 JAR 文件 。 

最 后 ， 通 过 Hadoop 加 载 JAR 文件 ， 并 运行 。 

下 面 ， 我 们 以 一 个 完整 的 文件 操作 为 例 来 说 明 。 程 序 的 主要 功能 如 下 。 

(1) 在 HDFS 文件 系统 中 创建 一 个 名 为 “hdtest” 的 目录 。 

(2) 将 本 地 名 为 “hfile.txt” 的 文件 上 传 到 HDFS 中 的 hdtest 目录 下 面 。 

(3) 遍历 hdtest 目录 。 

(4) 将 HDFS 中 的 hdtesyhfile.txt 文件 下 载 到 本 地 ， 并 另存 为 “hfile2.txt”。 
程序 的 源 代码 如 下 : 

















import java.io.ByteArrayOutputStream; 
import java.io.IOException; 

import java.io.OutputStream; 

import java.net.URI; 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FSDataInputStream; 
import org.apache.hadoop.fs.FSDataOutputStream; 
import org.apache.hadoop.fs.FileStatus; 

import org.apache.hadoop.fs.FileSystem; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IOUtils; 


public class HdfsTest ( 
private static final String HADOOP URL - "hdfs://test.hadoop:9000"; 
private Configuration conf; 


public HdfsTest() ( 
this.conf = new Configuration(); 
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} 
/太太 
* 测试 入 口 函数 
+y 
public static void main(String[] args) throws IOException { 
HdfsTest hdfs = new HdfsTest(); 
hdfs.createDir("/hdtest"); // 创 建 目 录 
hdfs.copyFile("file/hfile.txt", "/hdtest/hfile.txt"); // 拷 贝 文件 
hdfs.ls("/hdtest"); // 遍 历 目录 
hdfs.cat("/hdtest/hfile.txt"); // 查 看 文件 内 容 
/7 下载 文件 并 另存 
hdfs.download("/hdtest/hfile.txt", "file/hfile2.txt"); 
} 
** 
* 创建 目录 
* (param folder 
* (throws IOException 
*/ 
public void createDir(String folder) throws IOException ( 
Path path - new Path(folder); 
FileSystem fs - FileSystem.get (conf); 
if (!fs.exists(path)) ( 
fs.mkdirs (path); 
System.out.println("Create: " + folder); 
) 
fs.close(); 
} 
/** 
* 上 传 文件 到 HDFS 
* @param local 
* @param remote 
* (throws IOException 
y 
public void copyFile(String local, String remote) throws IOException ( 
FileSystem fs = FileSystem.get (conf); 
fs.copyFromLocalFile (new Path(local), new Path(remote)); 
System.out.println("copy from: " + local + " to " + remote); 
fs.close(); 
} 
** 
* 遍历 文件 
* (param folder 
* (throws IOException 
x, 
public void ls(String folder) throws IOException ( 
Path path - new Path(folder); 
FileSystem fs = FileSystem.get (conf); 
FileStatus[] list = fs.listStatus (path); 
System.out.println("ls: " + folder); 
System.out.println("**********]ist begin**SS3sssm); 
for (FileStatus f : list) ( 
System.out.printf("name: $s, folder: $s, size: $dWn", 
f.getPath(), f.isDir(), f.getLen()); 
H 
System.out.println("**********]ist endt*&xxxxxxam); 
fs.close(); 
} 
/** 
* 查看 文件 中 的 内 容 
* (param remoteFile 
* Qreturn 
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* (throws IOException 

sf 

public String cat (String remoteFile) throws IOException { 
Path path = new Path(remoteFile); 
FileSystem fs = FileSystem.get (conf); 
FSDataInputStream fsdis = null; 
System.out.println("Content: " + remoteFile); 


OutputStream baos = new ByteArrayOutputStream(); 
String str - null; 
try ( 
fsdis = fs.open(path); 
IOUtils.copyBytes(fsdis, baos, 4096, false); 
str = baos.toString(); 
) finally ( 
IOUtils.closeStream(fsdis); 
fs.close(); 
) 
System.out.println(str); 
return str; 
} 
/** 
* 从 HDFS 中 下 载 文件 到 本 地 
* @param remote 
* Q(param local 
* (throws IOException 
RÀ 
public void download(String remote, String local) throws IOException ( 
Path path = new Path (remote); 
FileSystem fs = FileSystem.get (conf); 
fs.copyToLocalFile(path, new Path(1local)); 
System.out.println( 
"download file from'" + remote + "' to '" + local + "'"); 
fs.close(); 
} 
/** 
* 重 命名 文件 
* @param src 
* Qparam dst 
* Qthrows IOException 
E 
public void rename (String src, String dst) throws IOException { 
FileSystem fs = FileSystem.get (conf); 
fs.rename(new Path (src), new Path(dst)); 
System.out.println("Rename: "+ src + " to " + dst); 
fs.close(); 
} 
/** 
* 删除 文件 或 目录 
* @param folder 
* Qthrows IOException 
gi 
public void delete (String folder) throws IOException { 
Path path = new Path (folder); 
FileSystem fs = FileSystem.get (conf); 
fs.deleteOnExit (path); 
System.out.println("Delete: " + folder); 
fs.close(); 
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编译 HdfsTest.java 源 文件 .Hadoop 2.x 版 本 中 JAR 不 再 集中 在 一 个 hadoop-core*.jar 中 ， 
而 是 分 成 多 个 JAR( 如 SHADOOP_ HOME/share/hadoop/common/hadoop-common-2.6.0.jar、 
SHADOOP HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar. SHADOO 
P HOME/share/hadoop/common/lib/commons-cli-1.2.jar 等 )， 通 过 “hadoop classpath” M, 
可 以 得 到 运行 Hadoop 程序 所 需 的 全 部 classpath 信息 。 

我 们 将 Hadoop 的 classhpath 信息 添加 到 CLASSPATH 变量 中 ， 然 后 直接 编译 : 


$ javac HdfsTest.java 


编译 时 会 有 警告 ， 可 以 忽略 。 编 译 后 ， 可 以 看 到 生成 的 .class 文件 ， 如 图 3-10 所 示 。 


rootütest class]f ls 

file HdfsTest. java 

rootütest class]& javac HdfsTest. java 

注 : HdfsTest. java 使 用 或 相差 了 已 过 时 的 API。 

DE: 有 关 详 细 信 息 ， 请 使 用 -Xlint: deprecation 重新 编译 。 
rootütest class]& ls 

file HdfsTest.class HdfsTest. java 

rootütest class]i B 


3-10 ”编译 并 查看 生成 的 .class 文件 
打包 .class 文件 ， 如 图 3-11 所 示 。 


[rootütest class]& jar -cvf HdfsTest. jar +. class 

已 添加 清单 

正在 添加 : HdfsTest. class(5& A = 3620) (输出 = 18120 (0&8 T 49%) 
[rootütest class] ls 

file HdfsTest. class HdfsTest.jar HdfsTest. java 

[ root@test class]* lj 


图 3-11 打包 .class 文件 并 查看 
运行 测试 ， 结 果 如 图 3-12 所 示 。 


rootütest class]i hdfs dfs -ls / 

Found 2 items 

Irrw-r--r-- 1 root supergroup 0 2016-03-10 23:24 /abc. txt 
Idrwxr-xr-X — - root supergroup 0 2016-03-10 04:43 /webdir 
rootütest class] hadoop jar HdfsTest. jar HdfsTest 

Create: /hdtest 

copy from: file/hfile txt to /hdtest/hfile. txt 

ls: /hdtest 

Irexeeeerrslist beginteeeeeerenres 

name: hdfs://test. hadoop: 9000/hdtest/hfile. txt, folder: false, size: 29 
[eereeeeerrlist enderreeernaaagz 

Content: /hdtest/hfile. txt 

Hi, I'ma test file on HDFS. 


download file from /hdtest/hfile. txt to ' file/hfile2. txt" 
rootütest class]# hdfs dfs -ls / 
Found 3 items 


|-rw-r--r-- 1 root supergroup 0 2016-03-10 23:24 /abc. txt 
Idruxr-xr-x — - root supergroup 0 2016-03-17 04:39 /hdtest 
drwxr-xr-x - root supergroup 0 2016-03-10 04:43 /webdir 


rootütest class] B 


图 3-12 ”运行 测试 结果 


由 上 面 的 运行 结果 可 以 看 到 ， 我 们 在 HDFS 文件 系统 中 成 功 地 创建 了 目录 并 上 传 /下 载 
了 一 个 文件 。 通 过 Fs Shell 命令 ， 可 以 验证 查看 已 上 传 的 文件 ， 如 图 3-13 Fran. 
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root@test class]& hdfs dfs -ls /hdtest 

Found 1 items 

-rw-r--r-- 1 root supergroup 29 2016-03-17 04:39 /hdtest/hfile. txt 
rootütest class]it hdfs dfs -cat /hdtest/hfile. txt 

Hi, I'ma test file on HDFS. 

rootütest class]# 


图 3-13 ”验证 查看 已 上 传 的 文件 


此 外 ， 上 述 实 例 代码 中 ， 还 提供 了 重 命名 (rename) 和 删除 (delete) 函 数 ， 感 兴趣 的 读者 可 
以 自己 测试 一 下 。 

使 用 命令 行 编译 运行 Java 程序 有 些 麻烦 ， 每 修改 一 次 就 需要 手动 编译 、 打 包 一 次 。 对 
于 较 大 规模 的 应 用 ， 可 以 使 用 Eclipse 等 集成 环境 进行 开发 ， 以 提高 开发 效率 。 


3.2.2. ”压缩 与 解压 缩 


我 们 在 HDFS 中 对 数据 进行 压缩 处 理 来 优化 磁盘 使 用 率 ， 提 高 数据 在 磁盘 和 网 络 中 的 
传输 速度 ， 从 而 提高 系统 处 理 数据 的 效率 。 

Hadoop 应 对 压缩 格式 的 技术 是 自动 识别 。 如 果 我 们 压缩 的 文件 有 相应 压缩 格式 的 扩展 
名 (比如 lzo、gz、bzip2 等 )，Hadoop 会 根据 压缩 格式 的 扩展 名 ， 自 动 选择 相对 应 的 解码 器 
来 解压 数据 ， 此 过 程 完全 是 Hadoop 自动 处 理 的 ， 我 们 只 须 确 保 输入 的 压缩 文件 有 扩展 名 。 

Hadoop 在 Codec 类 (org.apache.hadoop.io.compress) 中 ， 实 现 了 压缩 和 解压 缩 的 接口 
CompressionCodec。 可 用 的 Codec 实现 类 见 表 3-12。 


表 3-12 可 用 的 Codec 实现 类 


压缩 格式 Codec 实现 类 
Deflate org.apache.hadoop.io.compress.DefaultCodec 
Gzip org.apache.hadoop.io.compress.GzipCodec 
Bzip2 org.apache.hadoop.io.compress.BZip2Codec 
LZO com.hadoop.compression.lzo.LzopCodec 
LZ4 org.apache.hadoop.io.compress.Lz4Codec 
Snapp org.apache.hadoop.io.compress.SnappyCodec 


CompressionCodec 有 两 个 方法 ， 可 以 帮助 我 们 方便 地 压缩 或 解压 数据 。 压 缩 数据 时 使 
用 createOutputStream(OutputStream out) 获 取 压 缩 输出 流 对 象 CompressionOutputStream， 我 
们 将 未 压缩 的 数据 写 入 该 流 ， 它 会 帮 我 们 压缩 数据 后 ， 写 出 至 底层 的 数据 流 out。 

相反 地 ， 在 解析 数据 的 时 候 ， 使 用 createInputStream(InputStream in) 获 取 解 压缩 输入 流 
对 象 CompressionInputstream， 通 过 它 ， 我 们 可 以 从 底层 的 数据 流 中 读 取 解 压 后 的 数据 。 

CompressionOutputStream, CompressionInputStream 与 javautil.zip.DeflaterOutputStream、 
java.util.zip.DeflaterInputStream 类 似 ， 但 是 ， 前 者 支持 重 置 内 部 的 压缩 器 (Compresson 与 解 
压缩 器 (Decompressor) 状 态 。 

CompressionCodecFactory 是 Hadoop 压缩 框架 中 的 另 一 个 类 , 主要 功能 是 负责 根据 不 同 
的 文件 扩展 名 ， 来 自动 地 获取 相对 应 的 压缩 解压 器 ， 使 用 者 可 以 通过 它 提供 的 方法 ， 获 得 
CompressionCodec， 极 大 地 增强 了 应 用 程序 在 处 理 压缩 文件 时 的 通用 性 。 





E NS 


除了 前 面 介绍 的 createInputStream()fil createInputStream() 77 i; ^|, Hadoop 中 还 有 其 他 两 
种 压缩 模式 。 

一 是 压缩 机 Compressor 和 解压 机 Decompressor。 在 Hadoop 的 实现 中 ， 数 据 编码 器 和 
解码 器 被 抽象 成 了 两 个 接口 : org.apache hadoop.io.compress.Compressor 和 org.apache .hadoop io. 
compress.Decompressor。 它 们 规定 了 一 系列 的 方法 ， 所 以 ,在 Hadoop 内 部 的 编码 /解码 算法 
实现 中 都 需要 实现 对 应 的 接口 。 在 实际 的 数据 压缩 与 解压 缩 过 程 中 ，Hadoop 为 用 户 提供 了 
统一 的 IO 流 处 理 模式 。 

二 是 压缩 流 CompressionOutputStream 和 解压 缩 流 CompressionInputStream. 这 两 个 类 分 
别 继承 自 java.io.OutputStream 和 java.io.InputStream， 作 用 也 类 似 。 

下 面 ， 我 们 编码 实现 文件 的 压缩 和 解压 缩 操作 。 源 程序 如 下 : 


import java.io.IOException; 
import java.io.InputStream; 
import java.io.OutputStream; 
import java.net.URI; 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FSDataInputStream; 
import org.apache.hadoop.fs.FSDataOutputStream; 
import org.apache.hadoop.fs.FileSystem; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.IOUtils; 
import org.apache.hadoop.io.compress.CompressionCodec; 
import org.apache.hadoop.io.compress.CompressionCodecFactory; 
import org.apache.hadoop.io.compress.CompressionInputStream; 
import org.apache.hadoop.io.compress.CompressionOutputStream; 
import org.apache.hadoop.util.ReflectionUtils; 
public class CompressTest ( 
/** 
* 压缩 文件 
* Q(param codecClassName 
* (param filein, fileout 
* (throws IOException 
sy 
public static void compress (String codecClassName, String filein, 
String fileout) throws Exception { 
Class<?> codecClass = Class.forName (codecClassName); 
Configuration conf = new Configuration(); 
FileSystem fs = FileSystem.get (conf); 
CompressionCodec codec - (CompressionCodec)ReflectionUtils 
.newInstance (codecClass, conf); 


// 指 定 压缩 文件 路 径 

FSDataOutputStream outputStream = fs.create(new Path(fileout)); 
// 指 定 要 被 压缩 的 文件 路 径 

FSDataInputStream in = fs.open(new Path(filein)); 

// 创 建 压 缩 输出 流 


CompressionOutputStream out = 
codec.createOutputStream(outputStream); 

IOUtils.copyBytes(in, out, conf); 
IOUtils.closeStream(in); 
IOUtils.closeStream(out); 

} 

** 

* 解压 缩 ， 使 用 文件 扩展 名 来 推断 codec 

* (param fileuri 

* (throws IOException 

*f 
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public static void uncompress (String fileuri) throws IOException { 
Configuration conf = new Configuration(); 
FileSystem fs = FileSystem.get(URI.create(fileuri), conf); 
Path inputPath - new Path(fileuri); 
CompressionCodecFactory factory - new CompressionCodecFactory (conf); 
CompressionCodec codec - factory.getCodec (inputPath); 
if(codec -- null) ( 
System.out.println("no codec for " + fileuri); 
System.exit(1); 
H 
String outputUri = CompressionCodecFactory.removeSuffix( 
fileuri, codec.getDefaultExtension()); 
InputStream in = null; 
OutputStream out - null; 
try ( 
in = codec.createInputStream(fs.open (inputPath)); 
out = fs.create(new Path (outputUri)); 
IOUtils.copyBytes(in, out, conf); 
) finally ( 
IOUtils.closeStream(out); 
IOUtils.closeStream(in); 
} 
f 
public static void main(String[] args) throws Exception { 
String filein = "/hdtest/bigdata.pdf"; 
String fileout = "/hdtest/bigdatacom.gz"; 
compress ("org.apache.hadoop.io.compress.GzipCodec", 
filein, fileout); 
/ /ancompress (fileout); 





} 
编译 并 打包 运行 。 压 缩 操作 运行 的 结果 如 图 3-14 所 示 。 


rootütest class]# hdfs dfs -ls /hdtest 
Found 2 items 
-rw-r--r-- 1 root supergroup 71383576 2016-03-17 17:46 /hdtest/bigdata. pdf 
| Tw-r--r-- 1 root supergroup 29 2016-03-17 04:39 /hdtest/hfile. txt 

rootütest class]# hadoop jar CompressTest. jar CompressTest 

[16/03/17 17:50:04 INFO zlib.ZlibFactory: Successfully loaded & initialized native-zlib library 
[16/03/17 17:50:04 INFO compress. CodecPool: Got brand-new compressor [, gz] 

rootütest class]W hdfs dfs -ls /hdtest 

Found 3 items 














1 root supergroup 71383576 2016-03-17 17:46 /hdtest/bigdata. pdf 
1 root supergroup 63638004 2016-03-17 17:50 /hdtest/bigdatacom gz 
-Tw-r--r-- 1 root supergroup 29 2016-03-17 04:39 /hdtest/hfile. txt 
rootütest class)? M 


图 3-14 进行 压缩 操作 并 查看 结果 
解压 缩 操作 的 运行 结果 如 图 3-15 所 示 。 


rootütest class]? hdfs dfs -ls /hdtest 
Found 2 items 











1 root supergroup 63638004 2016-03-17 17:50 /hdtest/bigdatacom. gz 
1 root supergroup 29 2016-03-17 04:39 /hdtest/hfile. txt 
rootütest class]# hadoop jar CompressTest. jar CompressTest 

[16/03/17 17:53:26 INFO zlib.ZlibFactory: Successfully loaded & initialized native-zlib library 
16/03/17 17:53:26 INFO compress. CodecPool: Got brand-new decompressor [. gz] 
rootütest class]s hdfs dfs -ls /hdtest 

Found 3 items 

1 root supergroup 71383576 2016-03-17 17:53 /hdtest/bigdatacom 

1 root supergroup 63638004 2016-03-17 17:50 /hdtest/bigdatacom gz 
1 root supergroup 29 2016-03-17 04:39 /hdtest/hfile. txt 
rootütest class]? fi 


图 3-15 解压 缩 的 运行 结果 


数据 
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3.3 水 D 


KAMAT HDFS 系统 的 操作 使 用 和 如 何 使 用 接口 进行 编程 ， 通 过 诸多 的 实例 ， 以 实 
践 的 方式 重点 介绍 了 Shell 命令 接口 、Java 编程 接口 、WebHDFS 等 。 

通过 对 本 章 内 容 的 学 习 , 读者 应 该 能 够 熟练 地 掌握 通过 Shell 接口 操作 HDFS 文件 系统 
的 方式 和 方法 ， 同 时 ， 能 够 使 用 Java 编程 语言 、Web 等 管理 HDFS 上 的 文件 ， 为 后 续 章节 
的 大 数据 学 习 打 下 良好 的 基础 。 


大 数据 计算 篇 
4 


YARN | 


本 章 带 领 读 者 一 起 学 习 YARN, '€ X Hadoop 分 布 式 集群 中 负责 资源 管 
理 和 调度 的 重要 模块 。 为 保证 内 容 的 权威 性 ， 本 章 主要 以 官方 提供 的 资料 
为 基础 ， 再 结合 实践 理解 进行 讲述 ， 从 YARN 的 概述 、 主 要 组 成 模块 、 调 
度 器 、RM 高 可 用 、 节 点 标签 等 方面 对 YARN 展开 详细 的 说 明 。 讲 述 一 个 
Application 工作 提交 后 ，YARN 的 工作 原理 和 数据 流程 。 在 本 章 的 最 后 ， 
将 给 出 编写 YARN 应 用 程序 的 实践 案例 。 

通过 本 章 的 学 习 , 读者 应 能 够 掌握 YARN 如 何 对 资源 进行 管理 和 调度 ， 
能 够 掌握 它 的 基本 配置 项 ， 以 及 开启 、 关 闭 相 关 的 功能 . 
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容量 、 公 平 调度 器 
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4.1 YARN 概述 


Apache Hadoop YARN(Yet Another Resource Negotiator， 另 一 种 资源 协调 者 ) 是 从 
Hadoop 0.23 进化 来 的 一 种 新 的 资源 管理 和 应 用 调度 框架 。 基 于 YARN， 可 以 运行 多 种 类 型 
的 应 用 程序 ， 例 如 MapReduce、Spark、Storm 等 。YARN 不 再 具体 管理 应 用 ， 资 源 管理 和 
应 用 管理 是 两 个 低 耦 合 的 模块 。 

YARN 从 某 种 意义 上 来 说 ， 是 一 个 云 操作 系统 (Cloud OS)。 基 于 该 操作 系统 之 上 ， 程 序 
员 可 以 开发 多 种 应 用 程序 , 例如 批 处 理 MapReduce 程序 、Spark 程序 以 及 流 式 作业 Storm 程 
序 等 这些 应 用 可 以 同时 利用 Hadoop 集群 的 数据 资源 和 计算 资源 .此 外 , 还 可 以 利用 YARN 
的 资源 管理 器 ， 提 供 新 的 应 用 管理 器 实现 。 

YARN 的 产生 是 对 Hadoopl 的 优化 ,这 次 优化 是 Hadoop 框架 发 展 以 来 最 大 的 一 次 重 构 ， 
Hadoop2 将 Jobtracter 的 资源 管理 和 任务 管理 拆 分 成 两 个 独立 模块 , 成 为 独立 的 YARN 和 各 
种 ApplicationManager。 

概括 地 说 ，YARN 弥补 了 Hadoopl 中 的 两 个 主要 缺陷 ， 这 是 产生 YARN 的 原动力 。 

(0) 不 支持 多 租赁 。 集 群 的 计算 资源 只 支持 MR 程序 ， 不 能 支持 Storm, Spark 等 作业 。 

(2) 规模 限制 , 集群 规模 超过 4000 台 时 , 会 出 现 不 可 预测 性 , 计算 能 力 非 近 线 性 扩展 。 

YARN 的 分 布 式 系统 ， 包 含 两 个 守护 进程 .资源 管理 器 (ResourceManager，RM)、 节 点 
管理 器 (NodeManager，NMD)。 另 外 ,很 重要 的 进程 是 应 用 管理 者 (ApplicationManager，AMD)， 
当 一 个 应 用 提交 后 ，RM 负责 启动 该 任务 对 应 类 型 的 AM， 应 用 的 执行 由 AM 管理 。 可 以 简 
单 地 认为 ，AM 进程 的 生命 周期 为 应 用 的 运行 时 间 。YARN 的 工作 原理 如 图 4-1 所 示 。 
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4.0 YARN 的 主要 组 成 模块 


YARN 的 主要 模块 包括 如 下 几 种 。 

(1) 资源 管理 器 ResourceManager(RM): 管理 全 部 计算 资源 给 各 种 应 用 ，RM 和 每 个 节 
点 上 的 NodeManager 构成 资源 管理 和 作业 调度 框架 。 

Q) 节点 管理 器 NodeManager(NM): 管理 在 该 节点 上 的 所 有 用 户 进程 ， 并 向 RM 汇报 
资源 情况 、 用 户 进程 情况 。 

(3) 应 用 管理 器 ApplicationMaster(App Mstr 或 AM): 管理 作业 的 启动 和 状态 跟踪 ， 对 
失败 任务 进行 重 试 。 每 类 应 用 的 提交 运行 都 要 有 对 应 的 App Mstr 来 管理 


4.3 YARN 的 整体 设计 








YARN 的 设计 初衷 ， 是 分 离 资 源 管理 和 作业 调度 /监控 功能 。 核 心思 路 是 建立 一 个 全 局 
的 资源 管理 器 (RM) 和 多 类 型 的 作业 管理 器 (AM)。 
任何 一 个 作业 提交 后 (或 者 是 单一 的 job， 或 者 是 由 多 个 组 件 构 成 的 DAG 有 向 无 环 图 )， 
都 有 两 个 守护 进程 ， 分 别 是 RM 和 AM， 两 者 构成 了 数据 计算 框架 。 

RM 具有 对 集群 系统 中 所 有 作业 进行 资源 分 配 的 最 高 的 权限 NM 是 每 个 工作 节点 上 的 
框架 代理 ， re 监控 容器 的 资源 使 用 情况 (CPU、 内 存 、 硬 盘 、 带 宽 )， 并 报 
告 使 用 信息 给 

RA AM 都 是 带 有 特定 库 的 计算 框架 ，AM 从 RM 申请 计算 资源 ， 并 与 NM 一 
起 执行 、 监 控 作 业 。 

RM 有 两 个 重要 的 功能 模块 : 调度 器 (Schedulen 和 应 用 管理 者 (ApplicationsManager， 注 
意 不 是 ApplicationMaster)。 

调度 器 负责 为 各 种 作业 程序 分 配 资源 。 调 度 器 只 负责 调度 职责 ， 不 涉及 监控 或 者 跟踪 
作业 状态 的 功能 。 调 度 器 虽然 负责 作业 调度 ， 但 它 不 负责 失败 作业 的 重启 、 失 败 任务 的 重 
启 、 硬 件 引起 的 失败 故障 。 调 度 器 根据 作业 的 请 求 ， 以 容器 的 形式 进行 调度 ， 容 器 包含 的 
元 素 有 CPU、 内存、 硬盘、 带宽 等 。 调 度 器 选 型 可 通过 配置 制定 和 变更 ， 根 据 队列 、 作 业 
对 集群 资源 进行 划分 。 

目前 的 调度 器 有 容量 调度 器 (CapacityScheduler) 和 公平 调度 器 (FairScheduler)。 

应 用 管理 者 (ApplicationsManager) 负 责 接 收 提交 作业 ， 申 请 “第 一 容器 ”所 需 资源 并 提 
供 服 务 ， 负 责 作业 容器 失败 时 的 重启 。 每 种 类 型 应 用 的 AM 负责 与 调度 器 协定 作业 执行 的 
资源 容器 ， 并 跟踪 作业 状态 、 监 控 作 业 进 度 、 故 障 处 理 等 。 

Hadoop 2.x 版 本 的 MapReduce API 兼容 先前 的 Lx 版 本 。 这 意味 着 所 有 在 Hadoop 1.x 
下 开发 的 MapReduce job 程序 ， 可 仅 重 新 编译 而 无 修改 地 直接 运行 在 YARN 系统 上 。 

从 客户 端 提交 任务 到 RM 接受 任务 , 再 到 App Mstr 执行 任务 , 基于 YARN 的 任务 工作 
流程 如 图 4-2 所 示 。 
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44 容量 调度 器 
容量 调度 器 用 于 灵活 调度 计算 资源 ， 最 大 化 地 利用 共享 计算 资源 。 


4.4.1 什么 是 容量 调度 器 


容量 调度 器 是 为 实现 集群 的 吞吐 量 和 利用 率 最 大 化 而 设计 的 调度 策略 ，Hadoop 作业 运 
行 时 共享 多 租赁 集群 资源 。 一 般 来 说 ， 每 个 组 织 都 拥有 私 属 的 计算 资源 ， 这 些 资源 能 够 满 
足 该 组 织 所 有 业务 在 高 峰 时 的 计算 需求 。 每 个 组 织 搭建 独立 集群 的 模式 ， 会 导致 计算 资源 
的 不 充分 利用 和 对 多 个 独立 集群 管理 的 高 昂 费 用 。 很 明显 ， 在 组 织 之 间 共 享 集群 资源 是 一 
种 高 性 价值 比 的 模式 ， 这 样 ， 可 低 成 本 重复 获取 经 济 效益 而 不 用 创建 新 的 私有 集群 。 

然而 事实 上 ， 组 织 之 间 很 关注 集群 的 共享 可 能 带 来 的 负面 影响 ， 担 心 其 他 组 织 对 共享 
资源 占用 严重 而 影响 本 部 门 的 业务 计算 需求 。 

容量 调度 器 是 专门 为 解决 上 述 问题 而 设计 的 集群 计算 资源 调度 器 ， 它 给 每 个 组 织 一 个 
计算 资源 的 容量 担保 。 容 量 调度 器 的 核心 思想 是 : Hadoop 集群 的 计算 资源 可 以 在 多 个 组 织 
间 共 享 ， 并 且 ， 一 个 组 织 可 以 使 用 其 他 组 织 的 空闲 资源 ， 这 在 成 本 效益 方面 提供 了 弹性 机 
制 。 组 织 间 共 享 集 群 ， 就 需要 支持 多 租赁 模式 ， 因 为 每 一 个 组 织 必须 有 容量 担保 ， 以 确保 
共享 集群 的 每 一 个 作业 或 用 户 或 队列 都 能 分 配 到 合适 的 资源 。 容 量 调度 器 提供 了 一 种 严格 
的 规则 来 保证 每 个 作业 、 用 户 、 队 列 非 平均 地 消费 集群 资源 ， 以 使 集群 的 利用 率 和 吞吐 量 
最 大 化 。 同 时 ， 容 量 调度 器 对 同一 用 户 或 同一 队列 的 初始 化 和 特定 作业 的 资源 分 配 进行 限 
制 ， 以 确保 集群 资源 分 配 的 公平 性 和 稳定 性 。 
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容量 调度 器 提出 的 基础 概念 是 “队列 ”，“ 队 列 ” 由 管理 员 设 置 ， 主 要 考量 是 共享 集 
群 的 经 济 效益 。 为 了 提供 更 深入 的 控制 和 对 共享 资源 的 预见 性 ， 容 量 调度 器 支持 多 级 队列 ， 
以 确保 一 个 队列 的 资源 在 各 个 子 队 列 中 被 优先 分 配 。 在 子 队列 都 不 再 需要 资源 的 情况 下 ， 
其 他 队列 才 可 以 使 用 该 队列 的 空闲 计算 资源 。 


4.4.2 容量 调度 器 的 特性 


容量 调度 器 作为 YARN 的 默认 调度 器 ， 具 有 普 适 性 。 下 面 ， 我 们 讲述 容量 调度 器 的 特 
性 有 哪些 。 
(1) 多 级 队列 : 队列 的 分 级 ， 是 为 了 确保 队列 资源 被 其 他 队列 使 用 前 有 更 多 的 控制 和 
预见 性 。 
Q) 容量 担保 : 每 个 队列 从 资源 总 容量 中 申请 的 资源 片段 ， 用 户 提交 作业 到 该 队列 
则 使 用 该 队列 分 配 的 资源 。 管 理 员 可 以 对 每 个 队列 配置 软 限制 和 硬 限 制 。 
(3) 安全 : 每 个 队列 有 严格 的 访问 控制 列表 。 用 户 提交 作业 后 ， 具 有 对 该 作业 的 访问 、 
控制 权限 ， 但 其 他 用 户 不 能 查看 或 修改 该 应 作业 。 注 意 : 每 个 队列 和 系统 管理 员 可 以 查看 、 
修改 访问 控制 列表 。 
(4) 弹性 : 一 个 队列 的 空闲 资源 可 以 分 配给 其 他 队列 的 作业 使 用 ， 即 使 该 队列 已 经 超 
出 了 配置 的 容量 限制 。 队 列 中 低 于 配置 容量 运行 的 作业 对 资源 有 更 多 需求 时 ， 其 他 队列 的 
空闲 资源 将 被 分 配 过 来 。 对 集群 中 队列 共享 资源 进行 弹性 分 派 ， 可 以 防止 资源 浪费 ， 提 高 
集群 的 利用 率 。 
(5) 多 租赁 : 防止 单个 作业 、 用 户 、 队 列 独占 集群 资源 ， 并 确保 集群 资源 不 会 过 载 。 
(6) 操作 性 。 
e ”运行 时 配置 队列 的 定义 和 属性 比如 容量 、ACLS， 管理 员 可 以 在 运行 时 修改 。 运 
行 时 修改 队列 的 配置 给 用 户 造 成 的 影响 非常 小 。 为 管理 员 提 供 控制 台 来 查看 当前 
各 个 队列 的 分 配 情况 。 运 行 中 ， 管 理 员 可 以 增加 新 的 队列 ， 但 是 ， 不 能 删除 队列 。 

e 关闭 作业 提交 : 管理 员 可 以 在 运行 时 关闭 队列 提交 功能 ， 使 得 新 作业 不 能 被 提交 ， 
以 确保 已 开始 作业 运行 完成 。 如 队列 的 状态 是 STOPPED， 新 应 用 不 能 提交 到 该 队 
列 及 该 队列 的 子 队列 ， 但 是 ， 已 经 存在 的 作业 将 会 继续 运行 完成 ， 当 所 有 作业 执 
行 完成 时 , 队列 的 关闭 操作 将 自动 结束 , 管理 员 也 可 以 START 已 经 处 于 STOPPED 
状态 的 队列 。 

(7) 基于 资源 的 调度 :对 那些 高 资源 需求 的 作业 ， 可 通过 配置 ， 来 申请 比 默认 高 的 资 
源 ， 容 量 调度 器 可 以 满足 对 不 同 资源 要 求 的 作业 。 目 前 已 支持 对 内 存 资源 的 需求 管理 。 

(8) 基于 用 户 或 群 组 的 队列 映射 : 这 个 属性 允许 用 户 根据 用 户 或 群 组 映射 job 到 一 个 指 
定 的 队列 。 


4.4.3 配置 RM 使 用 容量 调度 器 
配置 conf/yarn-site.xml， 用 表 4-1 的 属性 指定 调度 器 类 型 。 
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表 4-1 yam-site.xm 配置 信息 










属 性 


yarn.resourcemanager.scheduler.class 


值 
org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity. 


CapacityScheduler 








用 户 可 以 在 etc/hadoop/ 下 看 到 capacity-scheduler xml， 是 专门 配置 容量 调度 器 的 配置 文 
件 。 默 认 情况 下 ， 启 动 default 队列 ， 同 时 ， 还 可 配置 一 些 其 他 参数 ， 如 : 


<property> 
<name>yarn . scheduler .capacity. root .queues</name> 
<value>default</value> 
<description> 
The queues at the this level (root is the root queue). 
</description> 
</property> 
<property> 
<name>yarn . scheduler .capacity.maximum-applications</name> 
<value>10000</value> 
<description> 
Maximum number of applications that can be pending and running. 
</description> 
</property> 
<property> 
<name> 
yarn.scheduler.capacity.root.default.acl submit applications 
«/name» B B 
«value»*«/value» 
«description» 
The ACL of who can submit jobs to the default queue. 
«/description» 
</property> 


4.5 公平 调度 器 (Fair Scheduler) 
公平 调度 器 是 对 所 有 作业 以 平均 、 相 等 的 分 本 策略 对 集群 资源 进行 调度 。 


4.5.1 什么 是 公平 调度 器 


YARN 可 以 调度 多 种 资源 类 型 ， 默 认 情况 下 ， 公 平 调度 器 仅 是 基于 内 存 的 公平 调度 。 
当 单一 作业 运行 时 ， 该 作业 使 用 整个 集群 的 资源 ， 当 其 他 作业 提交 时 ， 空 闲 资源 被 分 配给 
新 作业 ， 每 个 作业 最 终 获取 了 相同 的 处 理 资 源 时 间 。 不 像 Hadoop 默认 的 容量 调度 器 是 根据 
队列 分 配 资源 ， 公 平 调度 策略 能 使 短 任务 在 合理 时 间 内 完成 ， 而 不 需要 等 待 较 长 的 时 间 ， 
这 是 在 不 同 用 户 之 间 共 享 资源 的 合理 方法 。 公 平 策略 可 带 优 先 级 属性 ， 优 先 级 的 权重 表示 
每 个 作业 从 整体 资源 中 获取 资源 的 数量 。 

公平 调度 器 将 所 有 的 作业 划分 到 不 同 的 队列 中 ， 这 些 队列 公平 占有 资源 。 默 认 情况 下 ， 
所 有 用 户 都 在 一 个 队列 中 ， 这 个 队列 的 名 称 是 default。 当 一 个 作业 提交 时 ， 在 容器 中 指定 
了 队列 ， 那 么 该 作业 就 提交 到 对 应 的 队列 中 ， 也 可 根据 配置 文件 中 基于 用 户 的 资源 要 求 分 
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配 队 列 。 每 个 队列 中 的 运行 作业 共享 该 队列 的 资源 。 目 前 仅 支 持 对 内 存 的 资源 的 公平 调度 ， 
通过 配置 队列 选项 ， 可 实现 FIFO、 主 要 资源 公平 调度 的 方式 ， 队 列 还 可 通过 分 级 或 配置 队 
列 权重 进行 资源 分 配 。 

公平 调度 器 对 每 个 队列 有 最 小 资源 担保 ， 这 是 为 了 确保 作业 、 用 户 、 群 组 能 得 到 足够 
的 资源 。 当 一 个 队列 中 有 运行 状态 的 作业 时 ， 公 平 调度 器 保证 该 队列 获得 最 小 资源 ， 当 队 
列 不 需要 最 小 资源 运行 作业 时 ， 队 列 中 的 空闲 资源 将 会 被 其 他 队列 划分 使 用 。 这 个 调度 策 
略 使 得 在 队列 中 没有 作业 时 ， 资 源 可 供 其 他 队列 使 用 ， 使 得 资源 利用 率 更 加 高 效 。 

默认 情况 下 ， 公 平 调度 器 调度 所 有 的 作业 ， 也 可 以 通过 配置 文件 限制 每 个 用 户 和 队列 
运行 作业 的 数量 。 这 种 调度 在 一 个 用 户 需要 提交 数 以 百 计 作业 ， 或 者 在 很 多 作业 运行 中 需 
要 产生 大 量 中 间 数 据 或 进行 数据 切换 时 ， 都 比较 有 用 。 限 制 新 作业 的 提交 不 会 引起 后 面 提 
交 作 业 的 失败 ， 只 需 等 待 队列 中 用 户 的 早期 任务 完成 后 ， 就 可 运行 。 


45.2 ”分 级 队列 


公平 调度 器 也 支持 分 级 队列 ， 所 有 的 队列 都 从 root 队列 衍生 而 来 。 经 典 的 公平 调度 方 
式 是 将 资源 分 布 到 root 队列 的 子 队列 中 ， 并 将 分 配 到 的 资源 放 到 子 队 列 中 ， 作 业 可 在 子 队 
列 中 进行 调度 。 通 过 配置 子 元 素 的 方式 指定 某 队 列 为 其 他 队列 的 子 队 列 。 队 列 名 称 以 父 类 
队列 的 名 称 开 始 ， 用 句点 作为 分 隔 符 。 

如 root 队列 下 的 一 个 队列 queuel 的 名 称 是 root.queuel1， 那 么 parentl 下 的 子 队 列 名 称 
为 queue2， 则 引用 方式 为 rootparent1.queue2。 队 列 中 的 root 是 可 选项 ,如 queuel 可 以 只 写 
queuel， 上 面 的 queue 可 以 只 写 parentl.queue2. 

另外 ， 公 平 调度 器 允许 用 户 为 每 个 队列 设置 不 同 的 用 户 规则 来 分 享 队列 资源 。 用 户 规 
则 通过 org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.SchedulingPolicy 进行 设 
置 。 主 要 规则 有 : FIFO 规则 、 公 平分 享 规则 (默认 )、 主 要 资源 公平 规则 。 

公平 调度 器 支持 管理 员 配 置 策略 ， 使 提交 的 作业 自动 地 放 到 对 应 队列 中 。 公 平 调度 器 
根据 作业 、 用 户 、 群 组 指定 的 队列 信息 放 到 指定 的 队列 中 。 每 个 提交 的 作业 根据 策略 中 的 
规则 放 进 一 个 队列 。 使 用 公平 调度 器 ， 需 要 在 yarn-site.xml 文件 中 配置 公平 调度 的 类 。 

yarn-site.xml 中 配置 信息 如 下 : 


<property> 
<name>yarn.resourcemanager.scheduler.class</name> 
<value> 
org.apache.hadoop.yarn.server.resourcemanager 
.scheduler.fair.Fairscheduler 
</value> 
</property> 























4.5.3 ”公平 调度 器 队列 的 设置 
yarm-site xml 中 ， 公 平 调度 器 的 配置 信息 如 下 : 


<?xml version-"1.0"?» 
«allocations» 
«queue name-"sample queue"» 
«minResources»10000 mb,0vcores«/minResources» 


«d 从 基础 理论 到 最 佳 实践 


<maxResources>90000 mb,0vcores</maxResources> 
<maxRunningApps>50</maxRunningApps> 
<maxAMShare>0.1</maxAMShare> 
<weight>2.0</weight> 
<schedulingPolicy>fair</schedulingPolicy> 
<queue name="sample sub queue"> 
<aclSubmitApps>charlie</aclSubmitApps> 
<minResources>5000 mb,0vcores</minResources> 
</queue> 
</queue> 


«queueMaxAMShareDefault»0.5«/queueMaxAMShareDefault» 


X!-- Queue 'secondary group queue' is a parent queue and may have 
user queues under it --> 
«queue name-"secondary group queue" type-"parent"» 
«weight»3.0«/weight» T 
</queue> 


<user name="sample_user"> 
<maxRunningApps>30</maxRunningApps> 
</user> 
<userMaxAppsDefault>5</userMaxAppsDefault> 
<queuePlacementPolicy> 
<rule name="specified" /> 
<rule name="primaryGroup" create="false" /> 
<rule name="nestedUserQueue"> 
<rule name="secondaryGroupExistingQueue" create="false" /> 
</rule> 
<rule name-"default" queue-"sample queue"/» 
«/queuePlacementPolicy» 
«/allocations» 


配置 格式 文件 必须 是 XML 文件 ， 包 含 多 种 类 型 的 元 素 。 

(1) 队列 元 素 : 队列 元 素 可 以 带 一 个 选项 属性 ype， 可 以 设置 为 parent， 使 它 成 为 一 个 
父 队列 。 

在 需要 配置 一 个 父 队列 而 不 需要 子 队 列 的 场合 ， 每 个 队列 元 素 可 以 包含 下 面 的 属性 。 

®© minResources: 通过 “X mb, Y vcores” 格 式 ， 设 置 队列 的 最 小 资源 数 。 对 于 单 类 
型 资源 (内 存 ) 的 公平 策略 ，vcores 的 值 是 被 忽略 的 。 当 一 个 队列 的 资源 不 能 满足 时 ， 公 平 调 
度 器 将 根据 单 资源 公平 策略 重新 分 配 。 一 个 队列 的 资源 是 否 被 满足 ， 主 要 看 其 获得 的 内 存 
是 否 达到 了 最 小 资源 要 求 。 如 果 多 个 队列 出 现 不 满足 最 小 资源 需求 的 情况 ， 那 么 ， 资 源 将 
按照 使 用 资源 与 最 小 资源 的 比值 最 小 化 来 进行 分 配 ， 即 倾向 于 按 每 个 队列 的 最 小 资源 配额 
进行 资源 分 配 。 一 个 队列 有 新 提交 作业 时 ， 该 作业 可 能 不 能 立即 获得 最 小 资源 ， 因 为 已 运 
行 的 作业 正 占用 着 队列 的 资源 。 

Q) maxResources: 通过 “X mb, Y vcores” 格 式 ， 设 置 队列 的 最 大 资源 数 。 对 于 单 类 
型 资源 (内 存 ) 的 公平 策略 ，vcores 的 值 是 被 忽略 的 。 队 列 获得 的 资源 的 总 和 不 能 超过 该 最 大 
资源 限制 数 。 

®© maxRunningApps: 限制 队列 同时 运行 的 作业 数 。 

@ maxAMsShare: 设置 可 用 于 运行 Application Master 的 资源 比例 。 该 属性 可 只 在 子 队 
列 中 使 用 。 例 如 设置 为 1.0f， 则 表示 Application Master 可 以 占用 100% 的 内 存 和 CPU 资源 ， 
而 当 值 为 -1.0f 时 ， 表 示 跳 过 该 属性 检查 。 默 认 情况 下 ， 该 值 为 0.5f。 





第 4 章 YARN A 


© Weight: 设置 非 等 比 的 占有 集群 资源 的 比重 。Weight 默认 值 为 1， 当 权重 为 2 时 ， 
表示 该 队列 将 得 到 大 约 2 倍 于 默认 配置 的 资源 。 

© schedulingPolicy: 设置 队列 的 调度 规则 。 该 属性 的 可 选项 为 : fifo. fair. drf 或 自 
研 调度 规则 类 型 .但 必须 继承 并 实现 org.apache.hadoop.yarn.server.resourcemanager.scheduler. 
fair.SchedulingPolicy 的 类 及 方法 。 该 属性 的 默认 值 为 fair。 如 果 选 择 ffo， 表 示 早 提交 的 作 
业 会 优先 获得 足够 的 容器 ， 后 提交 的 作业 在 剩余 资源 能 满足 需求 的 情况 下 才 可 以 同时 执行 ， 
不 满足 时 则 等 待 资源 。 

C) aclSubmitApps: 设置 可 向 该 队列 提交 作业 的 用 户 或 群 组 。 

aclAdministerApps: 设置 可 管理 队列 的 用 户 或 群 组 列 。 

(9) minSharePreemptionTimeout: 设置 队列 最 小 配额 不 满足 的 等 待 时 长 。 超时 后 ,该 队 
列 将 优先 从 其 他 队列 中 获得 资源 。 若 不 设置 该 值 ， 则 将 继承 父 队 列 的 值 。 

fairSharePreemptionTimeout: 设置 队列 平均 配额 不 满足 的 等 待 时 长 。 超 时 后 ， 该 队 
列 将 优先 从 其 他 队列 中 获得 资源 。 若 不 设置 该 值 ， 则 将 继承 父 队 列 的 值 。 

(2) 用 户 元 素 : 设置 每 个 用 户 的 属性 。 最 小 化 配置 时 ， 仅 需要 设置 一 个 属性 ， 即 
maxRunningApps， 该 属性 表示 该 用 户 可 同时 运行 作业 数 的 最 大 值 。 

(3) 默认 用 户 最 大 作业 数 元 素 : 设置 用 户 默认 的 最 大 同时 运行 作业 的 数量 。 对 于 那些 
没有 指定 同时 运行 任务 数 限 制 的 用 户 ， 采 用 该 默认 设置 。 

(4) 默认 获取 公平 资源 超时 元 素 : 设置 root 队列 对 公平 资源 的 最 大 等 待 时 长 ， 可 通过 
root 队列 的 fairSharePreemptionTimeout 进行 覆盖 设置 。 

(5) 默认 获取 最 小 资源 超时 元 素 : 设置 root 队列 对 最 小 资源 的 最 大 等 待 时 长 ， 可 通过 
root 队列 的 minSharePreemptionTimeout 进行 覆盖 设置 。 

(6) 默认 获取 公平 资源 阔 值 元 素 :设置 root 队列 对 公平 资源 的 分 配 阔 值 ， 可 通过 root 
队列 的 fairSharePreemptionThreshold 进行 覆盖 设置 。 

(7) 默认 队列 最 大 作业 数 元 素 : 设置 队列 默认 可 以 运行 的 最 大 作业 数 ， 可 通过 队列 的 
maxRunningApps 进行 覆盖 设置 . 

(8) 默认 AM 对 队列 资源 的 使 用 限制 元 素 : VEL Application Master 对 队列 资源 的 使 用 
限制 。 可 通过 maxAMShare 进行 覆盖 设置 。 

(9) 默认 队列 调度 规则 元 素 : 设置 队列 的 默认 调度 规则 。 队 列 可 以 通过 设置 scheduling 
Policy 进行 覆盖 重 载 ， 默 认 调度 规则 为 fair。 

(10) 作业 放置 规则 元 素 : 设置 调度 器 如 何 将 提交 的 作业 放置 到 队列 中 的 规则 ， 规 则 的 
使 用 顺序 严格 按照 配置 顺序 。 规 则 可 以 带 参 数 ， 如 所 有 规则 都 可 传 create 参数 ，create 默认 
为 tue， 表 示 这 个 规则 可 创建 新 的 队列 。 若 设置 为 false， 则 表示 把 作业 放置 到 不 可 创建 文 
件 的 队列 中 。 最 后 的 规则 必须 有 终止 符 ， 合 法 的 规则 如 下 。 

(D) specified: 设置 作业 放置 的 它 队列 。 如 果 一 个 作业 没有 指定 队列 , 则 选择 默认 default 
队列 。 

© user: 用 户 提交 的 作业 放 进 该 用 户 对 应 的 队列 中 。 

®© primaryGroup: 用 户 提交 的 作业 放 进 用 户 所 在 群 组 对 应 的 队列 中 。 

(à) secondaryGroupExistingQueue: 用 户 提交 的 作业 放置 到 设置 的 第 二 群 组 所 对 应 的 队 
列 中 。 


«i 从 基础 理论 到 最 佳 实践 


®© nestedUserQueue: 用 户 提交 的 作业 放 进 嵌 套 规则 的 队列 中 。 这 与 user 规则 有 点 相 
似 , 不 同 的 是 ，nestedUserQueue 可 以 在 父 队 列 下 创建 队列 ， 而 user 只 有 在 root 队列 下 才 可 
以 创建 新 队列 。nestedUserQueue 规则 被 使 用 的 条 件 是 嵌 套 规则 返回 一 个 父 队 列 ， 用 户 可 以 
直接 配置 父 队列 ， 或 通过 设置 队列 的 type 属性 ， 指 定 为 parent。 

© default: 用 户 提交 的 作业 放置 到 默认 规则 中 配置 的 queue。 如 果 queue 没有 配置 ， 
作业 将 被 放 到 root. default 队列 。 

© reject: 拒绝 用 户 提交 作业 。 


4.6 资源 管理 者 (RM) 重 启 机 制 


资源 管理 者 (Resource Manager)/é YARN 系统 中 负责 管理 资源 和 调度 应 用 的 核心 模块 。 


4.6.1 什么 是 资源 管理 器 重启 


我 们 知道 ， 在 Hadoop2 之 前 的 版 本 中 ，Jobtracker 是 单 点 ， 在 Hadoop2 中 ， 资 源 管理 器 
RM 同样 是 集群 的 一 个 单 点 。 但 RM 通过 重启 资源 管理 器 技术 , 实现 了 资源 管理 器 的 宕 机 时 
间 对 于 终端 用 户 来 说 是 不 可 见 、 不 易 察觉 的 。 

资源 管理 器 (RM) 重 启 机 制 分 为 两 大 类 。 

(1) 资源 管理 器 重启 1( 非 工作 保存 RM 重启 )。 

为 增强 资源 管理 器 持续 执行 作业 的 能 力 , RM 将 持久 化 保存 作业 的 元 数据 信息 到 状态 存 
储 器 中 。RM 重启 后 ， 将 从 状态 存储 器 中 重 载 这 些 信 息 ， 并 重启 先前 运行 的 作业 ， 且 用 户 不 
需要 重复 提交 作业 。 运 行 中 的 作业 会 被 kill 掉 ， 重启 后 重新 执行 。 

(2) 资源 管理 器 重启 2( 工 作 保存 RM 重启 )。 

通过 合并 节点 管理 器 上 的 容器 状态 信息 和 重启 时 应 用 管理 者 中 的 容器 请 求 重建 资源 管 
理 器 的 运行 状态 。 与 非 工作 保存 RM 重启 方式 的 关键 不 同 点 ， 是 先前 运行 的 作业 在 RM E 
启 后 不 会 被 kill， 作 业 不 会 因为 RM 的 丢失 而 影响 执行 。 


4.6.2 非 工 作 保存 RM 重启 


资源 管理 器 重启 1( 非 工作 保存 RM 重启 ) 的 核心 思想 是 : 把 用 户 提交 的 作业 信息 以 及 作 
业 的 最 后 状态 信息 、 作 业 结 束 时 的 诊断 信息 都 持久 化 到 一 个 可 插 的 存储 中 ， 另 外 ，RM 也 保 
存 认 证 信息 ， 如 安全 环境 中 的 key、tokens。 当 RM 宕 机 重启 后 ，RM 从 可 从 存储 中 请 求 作 
业 的 信息 (元 数据 信息 、 认 证 环境 中 的 认证 信息 )， 根 据 这 些 信 息 ，RM 将 重建 作业 ， 并 重新 
提交 。 如 果 作业 的 状态 是 finished 或 failed 或 killed; RM 重启 后 就 不 会 重新 提交 
节点 管理 器 (NN) 和 客户 端 在 RM 宕 机 期 间 保持 着 先前 的 RM 状态 ， 直 到 新 的 RM 启动 
起 来 。 当 新 的 RM 启动 完成 后 ，RM 将 通过 心跳 发 送 同步 命令 给 所 有 的 NodoManager 和 
ApplicationMasters 。 

NodeManagers 和 ApplicationMasters 收 到 重新 同步 命令 后 的 处 理 逻 辑 如 下 。 

(1) NM 会 kill 所 有 它 所 管理 的 容器 并 重新 向 RM 注册 ，RM 的 内 部 机 制 会 把 重新 注册 
的 NodeManager 当 作 新 节点 来 处 理 。 
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(2) AM( 如 MapReduce AM) 收 到 重新 同步 命令 后 将 会 退出 。 

RM 重启 后 会 从 状态 存储 中 加 载 所 有 的 作业 元 信息 ,包括 获取 作业 提交 信息 、 状 态 信息 、 
认证 信息 ， 并 填 载 到 内 存 中 ，RM 会 为 每 一 个 未 完成 的 作业 创建 一 个 新 的 attempt( 例 如 
MapReduce 的 ApplicationMaster)。 在 这 种 模式 下 ， 先 前 运行 的 作业 会 丢失 ， 因 为 这 些 作 业 
在 RM 重启 后 的 重新 同步 命令 中 全 部 被 退出 。 


4.6.3 工作 保存 RM 重启 


Hadoop 2.6.0 版 本 中 ，RM 重启 的 特性 得 到 了 极 大 的 发 展 ， 实 现 了 在 RM 重启 后 作业 的 
继续 执行 而 不 会 被 强制 退出 并 重新 提交 。 

在 第 一 个 方案 中 ， 保 存 了 作业 提交 信息 、 认 证 信息 ， 以 及 恢复 所 需要 的 状态 信息 ， 根 
据 这 些 信息 重建 该 作业 。 第 二 个 方案 的 关键 点 不 是 重建 可 提交 作业 ， 而 是 重建 执行 中 的 作 
业 。 难 点 是 要 实现 对 RM 中 所 有 生命 周期 内 容器 的 状态 跟踪 、 作 业 的 headroom、 资 源 的 请 
求 、 队 列 资源 利用 率 信息 的 收集 。 这 种 RM 重启 方式 中 ，RM 不 需要 kill AM， 正 在 执行 的 
作业 也 不 会 强制 终止 ， 而 是 继续 执行 。 真 正 实现 了 RM 重启 对 用 户 、 提 交 的 作业 都 是 不 可 
见 、 不 易 发 现 的 。 最 重要 的 是 ， 工 作 保留 RM 重启 方式 能 节省 大 量 的 作业 重 跑 时 间 ， 尤 其 
是 那些 需要 运行 多 天 的 大 作业 。 

RM 恢复 作业 的 运行 状态 是 通过 从 NMs 发 送 来 的 容器 状态 获取 的 。 每 个 NM 在 接收 到 
重新 同步 命令 后 ， 不 会 kill 容器 ， 而 是 直接 进行 节点 注册 ， 在 容器 再 注册 后 ，RM 将 继续 管 
理 容器 并 发 送 容 器 状态 , 并 重建 容器 实例 和 作业 的 调度 状态 。 AM 需要 重新 发 送 未 满足 的 资 
源 请 求 的 作业 给 RM， 因 为 RM 在 宕 机 后 会 丢失 未 满足 的 资源 请 求 的 作业 信息 。 


4.6.54 RM 重启 配置 yarn-site.xml 
重启 配置 文件 如 下 所 示 : 


<property> 
<description>Enable RM to recover state after starting. If true, then 
yarn.resourcemanager.store.class must be specified</description> 
<name>yarn.resourcemanager.recovery.enabled</name> 
<value>true</value> 
</property> 
<property> 
<description>The class to use as the persistent store.</description> 
<name>yarn.resourcemanager.store.class</name> 
«value»org.apache.hadoop.yarn.server.resourcemanager.recovery 
-ZKRMStateStore«/value» 
</property> 
<property> 
<description>Comma separated list of Host:Port pairs. Each corresponds 
to a ZooKeeper server 
(e.g. "127.0.0.1:3000,127.0.0.1:3001,127.0.0.1:3002") to be used by the 
RM for storing RM state. 
This must be supplied when using 
org.apache.hadoop.yarn.server.resourcemanager.recovery 
-ZKRMStateStore 
as the value for yarn.resourcemanager.store.class«/description» 
«name»yarn.resourcemanager.zk-address«/name» 
«value»127.0.0.1:2181«/value» 
</property> 
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4.7 ”资源 管理 器 的 高 可 用 性 (RM HA) 
高 可 用 机 制 可 避免 单 点 问题 ， 满 足 生产 环境 中 的 资源 实时 可 用 要 求 。 


47.1 什么 是 资源 管理 器 的 高 可 用 性 


这 里 介绍 YARN RM 的 高 可 用 性 以 及 如 何 配置 。RM 负责 集群 资 管理 和 作业 调度 。 在 
Hadoop 2.4 之 前 ，RM 是 YARN 集群 的 单 点 ， 因 为 还 没有 加 入 RM 重启 机 制 ， 高 可 用 部 署 
是 一 个 非常 值得 做 的 工作 。RM 高 可 用 的 实现 思想 与 传统 的 思想 是 一 致 的 ， 就 是 要 实现 RM 
的 主 / 备 元 余 结构 ， 以 去 掉 单 点 问题 。 如 图 4-3 所 示 。 








Aclive RM 宕 机 后 ， 进 行 故障 转移 
Standby RM 开始 工作 


(负责 资源 管理 /作业 调度 ) (备份 元 余 - 不 做 处 理 ) 







Zookeeper Cluster 
Zookeeper-01 






Zookeeper-01 Zookeeper-.. 


4-3 ”资源 管理 器 的 高 可 用 性 架构 


RM HA 通过 主 / 备 架构 来 实现 , 在任 一 时 刻 ， 有 且 仅 有 一 个 RM 是 活跃 的 ， 另外 的 一 个 
或 多 个 处 于 备份 模式 ， 并 等 待 接管 为 主机 的 角色 。 从 备 机 到 主机 的 触发 条 件 可 以 通过 管理 
员 命 令 完 成 ， 也 可 以 通过 YARN 中 配置 的 失败 转移 控件 自动 实现 。 


4.7.2 自动 故障 转移 


资源 管理 器 (RM) 可 通过 设置 Zookeeper-based ActiveStandbyElector 来 决定 哪个 RM 作为 
活跃 RM。 当 活跃 RM 宕 机 或 者 由 于 网 络 原因 不 应 答 ， 备 份 RM 会 自动 被 选举 为 活跃 RM 
并 接管 RM 的 所 有 工作 。 这 种 方式 可 及 时 解决 故障 导致 的 服务 停滞 ， 比 通过 管理 员 手动 指 
定 新 的 Active RM 要 高 效 。 当 然 ， 管 理 员 可 以 指定 硬件 配置 已 有 的 Standby RM 作为 新 的 
ActiveRM， 这 是 自动 故障 转移 机 制 所 不 具有 的 。 


4.7.3. 客户 端 /应 用 管理 器 /节点 管理 器 的 故障 转移 

当 有 多 个 RM 时 ， 需 要 在 yam-site xml 中 列 出 所 有 的 RM。 客户 端 、 应 用 管理 器 、 节 点 
管理 器 以 循环 赛 的 形式 选择 并 连接 RM， 直 到 它们 命中 活跃 的 RM。 如 果 活 跃 节点 宕 了 ， 某 
个 Standby RM 将 成 为 新 的 Active RM， 客 户 端 、 应 用 管理 器 、 节 点 管理 器 将 再 次 以 循环 赛 














的 形式 选择 并 连接 RM, 直到 命中 这 个 新 的 RM。 默 认 的 选择 连接 逻辑 是 在 org.apache.hadoop. 
yarn.client.ConfiguredRMFailoverProxyProvider 类 中 实现 的 .可 以 通过 重 写 org.apache.hadoop. 
yarn.client.RMFailoverProxyProvider 实现 自 有 的 策略 。 当 我 们 指定 自 有 策略 时 ， 需 要 设置 
yarn.client.failover-proxy-provider 的 值 为 该 类 的 类 名 ， 内 部 通过 反射 机 制 实例 化 该 类 对 象 并 


执行 对 应 的 逻辑 。 
4.7.4 部署 RM HA 
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故障 转移 功能 是 通过 多 个 配置 项 协调 完成 的 ， 下 面 是 一 些 必需 的 或 重要 的 配置 属性 ， 
如 表 4-2 所 示 。 在 yam-default.xml 中 有 全 部 的 配置 属性 ， 读 者 可 以 自行 查看 。 


表 4-2 RM HA 的 相关 属性 字段 及 配置 说 明 


配置 属性 
yam.resourcemanager.zk-address 


'am.resourcemanager.ha.enabled 
'am.resourcemanager.ha.rm-ids 


yam.resourcemanager.hostname.rm-id 


yam.resourcemanager.address.rm-id 


yam.resourcemanager.scheduler.address.rm-id 


yarn.resourcemanager.resource-tracker.address. 


rm-id 


yarn.resourcemanager.admin.address.rm-id 


属性 说 明 

Zookeeper 集群 的 地 址 ， 为 状态 存储 器 、 嵌 入 式 选 举 
器 提供 服务 

打开 RM HA 功能 

RM id， 例 如 rml、rm2 

为 每 一 个 rm-id 指定 hostname， 可 设置 为 每 个 RM 的 
服务 地 址 

为 每 个 rm-id 指定 地 址 (host:porb, 方 便 用 户 提交 作业 。 
若 设置 了 该 属性 ， 则 将 会 覆盖 yam.resourcemanager. 
hostname.rm-id 中 设置 的 rm-id 

为 每 个 rm-id 指定 调度 器 地 址 (host:id)。 若 设置 了 该 属 
Tk, WITH xi TE yarn.resourcemanager.hostname.rm-id 中 
设置 的 hostname 

为 每 个 rm-id 指定 连接 NM 的 地 址 (host:port)。 若 设置 
了 该 属性 , 则 将 覆盖 在 yarn.resourcemanager.hostname. 
rm-id 中 设置 的 hostname 

为 每 个 rm-id 指定 管理 地 址 (host:port)。 若 设置 该 了 属 
性 ， 则 将 覆盖 yarn.resourcemanager.hostname.rm-id 中 
设置 的 hostname 





yarn.resourcemanager.webapp.address.rm-id 


yarn.resourcemanager.webapp.https.address.rm-id 


为 每 个 rm-id 指定 Web 应 用 地 址 (hostporb。 若 设置 了 
yam.http.policy 为 HITPS_ONLY, 该 属性 就 不 必 再 设 
置 .该 设置 将 会 覆盖 在 yam.resourcemanager.hostname. 
rm-id 中 设置 的 hostname. 

为 rm-id 指定 HTTPS 的 地 址 hostporD。 若 设置 了 
yam.http.policy 为 HTTP ONLY， 则 不 需要 在 设置 该 
属性 。 该 属性 会 覆盖 yam.resourcemanager.hostname. 


rm-id 中 设置 的 hostname 





à 


dp tapaisia 


配置 属性 属性 说 明 
RM 在 高 可 用 集群 中 的 ia。 如 果 设 置 该 属性 ， 管 理 员 
必须 确定 每 个 RM 在 配置 文件 中 都 拥有 唯一 的 ID 





续 表 





yarn.resourcemanager.ha.id 


yam.resourcemanager.ha.automatic-failover. 打开 自动 故障 转移 功能 ， 默 认 情况 下 ， 自 动 故障 转移 
enabled 是 打开 状态 





在 自动 故障 转移 打开 时 ， 使 用 嵌入 式 选 举 法 来 得 到 新 

的 活跃 RM。 默 认 情 况 下 ， 该 功能 在 HA 可 用 时 为 打 
arn.resourcemanager.cluster-id. 集群 的 id 

客户 端 、 应 用 管理 器 、 节 点 管理 器 故障 转移 到 活跃 

RM 的 处 理 类 ， 可 用 自 带 类 ， 也 可 用 自 研 类 


yarn.resourcemanager.ha.automatic-failover. 


embedded 


yam.client.failover-proxy-provider 


'am.client.failover-max-attempts FailoverProxyProvider 进行 故障 转移 的 最 大 尝试 次 数 
: 设置 故障 转移 休眠 底数 ， 单 位 是 毫秒 ， 用 于 计算 故障 
yam.client.failover-sleep-base-ms RE NS YR CER 
'arn.client.failover-sleep-max-ms 设置 故障 转移 时 的 最 大 时 长 
'am.client.failover-retries 设置 故障 转移 时 尝试 连接 RM 的 最 大 次 数 


arn.client.failover-retries-on-socket-timeouts 设置 连接 RM 的 最 大 超时 


4.7.5 配置 例子 
在 yarn-site.xml 中 配置 如 下 : 


<property> 
«name»yarn.resourcemanager.ha.enabled«/name» 
«value»truec/value» 

</property> 

<property> 
«name»yarn.resourcemanager.cluster-id«/name» 
«value»clusterlc/value» 

</property> 

<property> 
«name»yarn.resourcemanager.ha.rm-ids«/name» 
«value»rml,rm2«/value» 

</property> 

<property> 
«name»yarn.resourcemanager.hostname.rml«/name» 
«value»masterl«/value» 

</property> 

<property> 
«name»yarn.resourcemanager.hostname.rm2«/name» 
«value»master2«/value» 

</property> 

<property> 
«name»yarn.resourcemanager.webapp.address.rml«/name» 
«value»masterl:8088«/value» 

</property> 

<property> 
«name»yarn.resourcemanager.webapp.address.rm2«/name» 
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«value»master2:8088«/value» 

</property> 

<property> 
«name»yarn.resourcemanager.zk-address«/name» 
«value»zk1:2181,zk2:2181,zk3:2181«/value» 

</property> 


47.6 “管理 员 命令 


YARN 的 RM 管理 员 (启动 YARN 的 用 户 ) 有 很 多 HA 命令 ,用 以 检查 RM 的 健康 /状态 、 
转变 主 / 备 角色 。HA 以 id 作为 参数 (在 参数 表 中 有 介绍 ) 选 择 活跃 RM 的 命令 ， 该 参数 在 
yarn.resourcemanager.ha.rm-ids 中 设置 。 例 如 ， 查 看 指定 mm 的 角色 : 


$ yarn rmadmin -getServiceState rml 
active 
$ yarn rmadmin -getServiceState rm2 
standby 


在 自动 故障 转移 打开 的 情况 下 ， 管 理 员 不 需要 手动 进行 角色 切换 ， 并 且 RM 会 拒绝 人 
工 切换 。 如 果 非 常 明确 需要 进行 人 工 干预 切换 , 可 通过 加 上 -forcemanual 强制 进行 手动 切换 。 

(1) 在 没有 开启 自动 故障 转移 的 情况 下 ， 手 动 进行 切换 : 

$ yarn rmadmin -transitionToStandby rml 

(2) 在 开启 自动 故障 转移 的 情况 下 ， 手 动 进行 强制 切换 : 


$ yarn rmadmin -transitionToStandby -forcemanual rml 





4.8 节点 标签 
节点 标签 是 用 相似 的 字符 来 组 织 节点 的 方法 ， 用 户 提交 作业 可 以 指定 标签 。 


4.8.1 节点 标签 的 特点 


节点 标签 的 特点 如 下 。 

(1) 一 个 节点 只 能 有 一 个 节点 分 区 ， 因 此 ， 一 个 集群 可 以 通过 分 区 变 为 几 个 不 相关 的 
子 集群 。 默 认 情 况 下 ， Tre 是 partition" 

Q) 用 户 需要 配置 每 个 分 区 有 多 少 资源 可 以 被 不 同 的 队列 使 用 。 

(3) 用 户 可 指定 节点 标签 集 ， 这 些 节点 可 以 被 每 个 队列 访问 ， 单 个 应 用 通过 所 在 的 队 
列 来 使 用 节点 标签 集中 的 一 个 子 集 。 


4.8.2 ”节点 标签 的 属性 


节点 标签 的 属性 如 下 。 

(1) 分 区 集群 : 每 个 节点 可 以 分 配 一 个 标签 ， 所 以 一 个 集群 可 通过 设置 不 同 的 标签 ， 
划分 成 多 个 小 的 、 不 相关 的 分 区 集群 。 

(2) 设置 队列 对 节点 标签 的 ACL: 用 户 可 以 设置 每 个 队列 可 以 访问 的 节点 标签 集 ， 很 
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多 节点 只 能 被 指定 的 队列 访问 。 这 与 队列 申请 资源 不 同 ， 资 源 申请 得 到 的 资源 可 以 是 集群 
的 中 任意 一 节点 ， 而 指定 了 节点 标签 集 的 队列 ， 只 能 从 指定 的 节点 集中 获取 资源 。 

(3) 指定 队列 对 分 区 资源 的 使 用 百分比 : 用 户 可 以 设置 队列 对 指定 标签 节点 资源 使 用 
的 百分比 。 如 队列 A 可 以 访问 标签 为 hbase 的 节点 上 的 30% 的 资源 ， 注 意 该 百分比 设置 要 
与 已 经 存在 的 资源 管理 分 配 一 致 。 








4.8.3 ”节点 标签 的 配置 
在 RM 中 配置 节点 标签 ， 在 yam-site xml 中 的 配置 如 表 4-3 所 示 。 
表 4-3 节点 标签 的 配置 属性 







配置 属性 
arn.node-labels.fs-store.root-dir 
am.node-labels.enabled 


属性 值 
rt/path/to/store/node-labels/ 

















hdfs://namenode:; 


注意 : 确保 yarn.node-labels.fs-store.root-dir 配置 的 目录 被 创建 并 且 RM 启动 账号 有 权限 
访问 该 目录 ， 并 有 读 、 写 权限 。 如 果 用 户 想 用 本 地 化 的 文件 系统 来 存储 节点 标签 信息 ， 以 
代替 HDFS， 则 路 径 格 式 为 ，file://home/yarn/node-label。 集 群 管理 员 可 通过 命令 增加 /修改 
节点 标签 列表 、 节 点 标签 映射 到 YARN 中 。 增 加 节点 标签 列表 : 


$ yarn rmadmin -addToClusterNodeLabels 
"label l(exclusive-true/false),label 2 (exclusive- true/false)" 


// 增 加 节点 标签 。 如 果 用 户 不 指定 “ (exclusive=..) , Wl exclusive-true 是 默认 值 
$ yarn cluster --list-node-labels // 查 看 新 添加 的 节点 标签 是 否 加 到 了 集群 中 


给 节点 增加 标签 : 


$ yarn rmadmin -replaceLabelsOnNode "nodel[:port]=labell node2=label2" 
//nodel 增加 标签 labe11，node2 增加 标签 label2 


4.8.4 使 用 节点 标签 的 调度 器 配置 
表 4-4 列 出 了 节点 标签 的 调度 配置 属性 。 
表 4-4 节点 标签 的 调度 配置 属性 


属性 描述 
设置 队列 访问 节点 中 默认 分 区 资源 的 百分比 。 队 列 的 子 队 列 对 
默认 分 区 使 用 量 的 总 和 必须 等 于 100 
设置 管理 员 需 要 指定 每 个 队列 可 以 访问 的 节点 标签 。 用 逗号 隔 
开 ， 如 “hbase,storm”， 表 示 该 队列 可 以 访问 节点 标签 hbase 和 
strom。 所 有 的 队列 可 以 访问 没有 标签 化 的 节点 ， 用 户 也 不 需要 
指定 标签 。 如 果 用 户 不 设置 该 属性 ， 该 值 将 要 从 它 的 父 队列 中 
继承 该 值 。 如 果 用 户 要 明确 地 指定 队列 可 以 访问 所 有 未 标签 化 
的 节点 ， 只 需要 将 该 属性 的 值 设 置 为 空 即 可 


配置 属性 


yarn.scheduler.capacity.<queue-path> 











yarn.scheduler.capacity.<queue-path> 





-accessible-node-labels 





配置 属性 
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续 表 
属性 描述 





yam.scheduler.capacity.<queue-path> 


.accessible-node-labels.<label>.capacity 


设置 队列 访问 指定 标签 <label> 的 资源 百分比 。 子 
队列 对 标签 <label> 的 容量 的 总 和 必须 为 100， 默 
认 该 属性 的 值 为 0 





yam.scheduler.capacity.<queue-path> 


.accessible-node-labels.<label>.maximum-capacity 


设置 队列 可 以 访问 指定 节点 标签 的 最 大 容量 ， 该 
属性 的 默认 值 是 100 





yarn.scheduler.capacity.<queue-path> 


.default-node-label-expression 


4.8.5 “节点 标签 配置 示例 


假设 队列 结构 为 : 


root 
/ l \ 


设置 当 用 户 提交 任务 而 又 没有 指定 节点 标签 时 的 
默认 节点 标签 。 该 属性 默认 为 空 





engineer sales marketing 


集群 中 有 5 个 节点 (hostname=h1..h5)， 每 个 节点 有 14GB 的 内 存 ，24 核 。 其 中 一 个 有 
GPU( 假 设 是 h5)， 所 以 管理 员 增 加 GPU 标签 给 h5。 


容量 调度 器 的 配置 如 下 : 


yarn.scheduler.capacity.root. 
.engineering.capacity=33 


yarn.scheduler.capacity.root 


yarn.scheduler.capacity.root. 
yarn.scheduler.capacity.root. 


yarn.scheduler.capacity.root. 
yarn.scheduler.capacity.root. 


queues-engineering,marketing, sales 


marketing.capacity-34 
sales.capacity-33 


engineering.accessible-node-labels-GPU 
marketing.accessible-node-labels-GPU 


yarn.scheduler.capacity.root.engineering.accessible-node-labels.GPU.capacity-50 
yarn.scheduler.capacity.root.marketing.accessible-node-labels.GPU.capacity-50 


yarn.scheduler.capacity.root.engineering.default-node-label-expression-GPU 


如 上 面 root.engineering/marketing/sales.capacity-33 表示 3 个 子 队列 可 以 获得 非 分 区 资源 
的 113。 所 以 ， 它 们 可 以 使 用 hl..h4 的 1/3 的 资源 ， 等 于 24*4*(1/3)-G2GB 内 存 ，32 核 )。 
只 有 engineering/marketing 队列 有 权限 可 以 访问 GUP 分 区 。engineering/marketing 队列 平 占 
该 GPU 分 区 的 资源 。 它 们 可 以 使 用 hs 资源 的 1/2， 值 为 24*0.5=(12GB 内 存 ，12 核 )。 





注意 如 下 两 点 。 





(1) 在 完成 配置 CapacityScheduler 之 后 ， 需 要 执行 yarn rmadmin -refreshQueues， 来 加 


载 修改 。 





(2) 到 RM 的 WebUI 界 1 








检查 节点 标签 配置 。 





4.8.6 ”指定 应 用 的 节点 标签 
提交 作业 时 ， 可 用 下 面 的 Java API 指定 节点 标签 以 请 求 资源 。 


«ds 从 基础 理论 到 最 佳 实践 


(1) 作业 可 以 通过 ApplicationSubmissionContext.setNodeLabelExpression(.…)， 来 设置 节 
点 标签 。 

(2) 通过 方法 ResourceRequest.setNodeLabelExpression(..) 为 每 个 资源 请 求 设置 节点 标 
签 ， 该 方法 可 以 被 ApplicationSubmissionContext 方法 覆盖 。 

(3) 通过 ApplicationSubmissionContext 中 的 setAMContainerResourceRequest.setNode- 
LabelExpression 指定 作业 master 容器 的 节点 标签 。 


4.8.7 ”节点 标签 的 监控 


(1) 通过 Web UI， 可 以 看 到 如 下 信息 。 

QD) 通过 http:/RM-Address:port/cluster/nodes， 查 看 每 个 节点 上 的 标签 。 

@ 通过 http:/RM-Address:port/cluster/nodelabels， 可 以 查看 活跃 节点 的 数量 ， 每 个 分 
区 的 总 资源 量 。 

© 通过 http://RM-Address:port/cluster/scheduler, 可 以 查看 每 个 队列 设置 的 相关 节点 标 
签 ， 以 及 对 这 些 资 源 的 利用 率 。 

(2) 通过 命令 行 监控 。 

用 yarn cluster --list-node-labels 来 获得 集群 中 的 节点 标签 : 


$ yarn cluster --list-node-labels 


用 yarn node -status <NodeId> 来 获取 指定 的 节点 标签 的 状态 : 


$ yarn node -status <NodeId> 


4.9 YARN 编程 


该 部 分 介绍 如 何在 YARN 上 实现 新 应 用 的 方法 。 目 前 ， 默 认 支 持 的 应 用 类 型 有 
MapReduce、Spark、Storm。 组 织 或 用 户 可 以 开发 适合 自己 的 处 理 框架 ， 当 然 ， 这 是 一 件 很 
有 挑战 性 的 工作 。 


4.9.1 什么 是 YARN 级 别 编程 


当 一 个 作业 通过 客户 端 提交 到 YARN 的 资源 管理 器 (RM) 时 ，RM 将 根据 资源 请 求 分 配 
容器 启动 AM， 由 NM 与 AM 共同 完成 对 该 作业 的 启动 和 管理 。 作 业 提交 客户 端 可 以 通过 
创建 YarmnClient 对 象 来 实现 。 在 YarnClient 启动 后 ， 客 户 端 可 以 创建 作业 上 下 文 ， 为 作业 申 
请 第 一 容器 ,该 容器 包含 ApplicationMaster(AM)， 并 提交 任务 到 AM。 用户 需 要 给 出 必需 的 
作业 信息 ， 包 括 作业 运行 的 JAR 包 、 执 行 命令 、 参 数 、 环 境 设 置 等 。 

AM 在 YARN RM 上 申请 的 第 一 容器 中 启动 。 该 AM 与 YARN 建立 通信 ， 并 处 理 作 业 
的 执行 ，AM 以 异步 模式 进行 工作 。 在 启动 作业 的 过 程 中 ，AM 的 主要 任务 如 下 。 

(1) 与 RM 通信 并 协商 、 分 配 作 业 容 器 的 资源 ， 这 些 容 器 资源 在 NM 上 开辟 。 

Q) 在 容器 分 配 后 ， 与 NM 通信 ， 在 NM 上 启动 应 用 容器 。 由 此 可 以 认为 ， 启 动作 业 
的 是 AM, 任务 (task) 的 运行 容器 在 NM 上 。Task a 通过 AMRMClientAsync 以 异步 模式 完成 ， 





第 4 章 YARN Q 





需要 在 AMRMClientAsync.CallbackHandler 指定 事件 处 理 方法 。Taskb 在 容器 分 配 后 ， 通 过 
可 执行 对 象 来 启动 容器 。AM 必须 为 这 个 容器 指定 ContainerLaunchContext， 该 对 象 中 包含 
启动 信息 ， 如 命令 行 中 指定 的 信息 、 环 境 等 。 

在 作业 执行 过 程 中 ，AM 通过 NMClientAsync 对 象 与 NMs 进行 通信 。 所 有 的 容器 事件 
是 通过 NMClientAsync.CallbackHandler 来 处 理 的 .常用 的 回调 操作 有 start, stop status update 
和 error. AM 通过 AMRMClientAsync.CallbackHandler 的 方法 getProgress()I:] AM 报告 执行 
进度 等 信息 。 


4.9.2 YARN 的 相关 接口 
下 面 是 写 Application Master 的 重要 接口 ， 主 要 包括 作业 客户 端 与 RM、AM 5 RM 和 








NM 交互 接口 。 

(1) Client<-->ResourceManager: 通过 使 用 YarnClient 对 象 完成 ， 实 现 客户 端 与 资源 管 
理 器 (RMD) 的 通信 。 

(2) ApplicationMaster<-->ResourceManager: 通过 AMRMClientAsync.CallbackHandler 
异步 处 理事 件 。 


(3) ApplicationMaster<-->NodeManager: 启动 容器 ，AM 通过 NMClientAsync 对 象 与 
NM 进行 通信 ， 通 过 NMClientAsync.CallbackHandler 处 理 容器 事件 。 

注意 : 

@ YARN 应 用 的 三 个 主要 协议 是 ApplicationClientProtocol、 ApplicationMasterProtocol 
和 ContainerManagementProtocol。 这 三 个 客户 端 打 包 了 三 个 协议 ， 以 简单 的 程序 模 
块 为 YARN 应 用 服务 。 

€ 编程 人 员 可 以 直接 使 用 这 三 个 协议 实现 应 用 ， 但 不 提倡 用 户 这 样 使 用 ， 而 是 推荐 
基于 三 个 客户 端 进行 新 应 用 管理 器 的 开发 。 


4.9.3 ”编程 实践 
1. 编写 一 个 新 应 用 类 型 的 客户 端 
(1) 初始 化 YamClient: 


YarnClient yarnClient = YarnClient.createYarnClient(); 
yarnClient.init (conf); 
yarnClient.start(); 


其 中 createYarnClient 为 创建 YarnClient 的 构造 函数 , 无 参数 .init 对 客户 端 进行 初始 化 ， 
start 启动 客户 端 。 
YarnClient.CreateYamClient() 源 码 为 : 


/** 

* Create a new instance of YarnClient. 

SF 

@Public 

public static YarnClient createYarnClient() { 
YarnClient client = new YarnClientImpl(); 
return client; 


yi 从 基础 理论 到 最 佳 实践 


(2) 初始 化 YamClientApplication: 


YarnClientApplication app = yarnClient.createApplication(); 
GetNewApplicationResponse appResponse = app.getNewApplicationResponse(); 


在 一 个 新 应 用 创建 后 的 返回 值 中 , 包含 了 集群 的 信息 ， 比 如 集群 的 最 小 /最 大 资源 容量 。 
这 些 信息 非常 重要 ， 只 有 如 此 ， 才 能 保证 用 户 可 以 获得 指定 的 容器 ， 以 启动 、 运 行 AM。 
yamClient.createApplication() 的 函数 定义 : 
/** 
* Obtain a (8link YarnClientApplication) for a new application, 
* which in turn contains the {@link ApplicationSubmissionContext) and 
* (G(link org.apache.hadoop.yarn.api.protocolrecords 
* .GetNewApplicationResponse] 
* (return (Glink YarnClientApplication) built for a new application 
i 
public abstract YarnClientApplication createApplication() 
throws YarnException, IOException; 


Q) 客户 端的 主要 职责 是 设置 RM 启动 AM 所 需要 的 所 有 信息 ,客户 端 通过 Application- 
SubmissionContext 来 设置 如 下 信息 : 

© 作业 信息 : id、 名 称 。 

Q 队列、 优先 级 : 作业 要 提交 到 的 队列 ， 应 用 执行 的 优先 级 。 

© 用户: 提交 作业 的 用 户 。 

QD 容器 启动 上 下 文 (ContainerLaunchContext): 启动 AM 的 容器 的 信息 ，Container- 
LaunchContext 定义 了 所 有 运行 应 用 需要 的 信息 ,例如 本 地 资源 信息 (执行 文件 、JAR 包 、 文 
件 等 )， 环 境 设 置 (类 路 径 等 ) 等 ， 执 行 的 命令 和 验证 口令 。 

// 设 置 应 用 的 提交 上 下 文 

// 创 建 上 下 文 对 象 

ApplicationsubmissionContext appContext = 

app.getApplicationsubmissionContext (); 


// 从 上 下 文中 获取 应 用 ia 
ApplicationId appId = appContext.getApplicationId(); 


// E keepContainers, 设置 应 用 名 
appContext.setKeepContainersAcrossApplicationAttempts (keepContainers); 
appContext.setApplicationName (appName) ; 


// 设 置 AM 需要 的 本 地 资源 

/ / AM 需要 的 本 地 文件 或 文档 

//AM 需要 的 JAR 包 ， 也 是 本 地 资源 的 组 成 部 分 

Map<String，LocalResource> localResources = 
new HashMap«String, LocalResource»(); 





LOG.info( 

"Copy App Master jar from local filesystem and add to local environment"); 

// 复 制 AM 需要 的 JAR 包 到 文件 系统 

// 创 建 一 个 本 地 资源 对 象 ， 指 向 目的 JAR 路 径 

FileSystem fs = FileSystem.get (conf); 

addToLocalResources(fs, appMasterJar, appMasterJarPath, appId.toString(), 
localResources, null); 


//Set the log4j properties if needed 
if (!log4jPropFile.isEmpty()) ( 
addToLocalResources (fs, log4jPropFile, log4jPath, appId.toString(), 
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localResources, null); 
} 


//The shell script has to be made available on the final container (s) 
//where it will be executed. 
//To do this, we need to first copy into the filesystem that is visible 
//to the yarn framework. 
//We do not need to set this as a local resource for the application 
//master as the application master does not need it. 
String hdfsShellScriptLocation - ""; 
long hdfsShellScriptLen - 0; 
long hdfsShellScriptTimestamp = 0; 
if (!shellScriptPath.isEmpty()) ( 
Path shellSrc - new Path(shellScriptPath); 
String shellPathSuffix - 
appName + "/" + appId.toString() + "/" + SCRIPT PATH; 
Path shellDst = 加 
new Path(fs.getHomeDirectory(), shellPathSuffix); 
fs.copyFromLocalFile(false, true, shellSrc, shellDst); 
hdfsShellScriptLocation = shellDst.toUri().toString(); 
FileStatus shellFileStatus = fs.getFileStatus (shellDst); 
hdfsShellScriptLen = shellFileStatus.getLen(); 
hdfsShellScriptTimestamp - shellFileStatus.getModificationTime(); 


if (!shellCommand.isEmpty()) ( 
addToLocalResources(fs, null, shellCommandPath, appId.toString(), 
localResources, shellCommand); 


if (shellArgs.length > 0) ( 
addToLocalResources(fs, null, shellArgsPath, appId.toString(), 
localResources, StringUtils.join(shellArgs, " ")); 

) 

//Set the env variables to be setup in the env where the application master 

//will be run 

LOG.info("Set the environment for the application master"); 

Map«String, String» env = new HashMap«String, String» (); 

//put location of shell script into env 

//using the env info, the application master will create the correct local 

//resource for the 

//eventual containers that will be launched to execute the shell scripts 

env.put (DSConstants.DISTRIBUTEDSHELLSCRIPTLOCATION, 
hdfsShellScriptLocation); 

env.put (DSConstants.DISTRIBUTEDSHELLSCRIPTTIMESTAMP, 
Long.toString(hdfsShellScriptTimestamp)); 

env.put (DSConstants.DISTRIBUTEDSHELLSCRIPTLEN, 
Long.toString(hdfsShellScriptLen)); 

//Add AppMaster.jar location to classpath 

//At some point we should not be required to add 

//the hadoop specific classpaths to the env. 

//It should be provided out of the box. 

//For now setting all required classpaths including 

//the classpath to "." for the application jar 

StringBuilder classPathEnv = new StringBuilder (Environment.CLASSPATH.$$()) 
-append(ApplicationConstants.CLASS PATH SEPARATOR).append("./*"); 

for (String c : conf.getStrings( 

YarnConfiguration.YARN APPLICATION CLASSPATH, 

YarnConfiguration.DEFAULT YARN CROSS PLATFORM APPLICATION CLASSPATH)) ( 
classPathEnv.append(ApplicationConstants.CLASS PATH SEPARATOR); 
classPathEnv.append(c.trim()); er Es 

} 
classPathEnv.append(ApplicationConstants.CLASS PATH SEPARATOR) 


5B 
PS 从 基础 理论 到 最 佳 实 践 
2 
-append("./10g4j.properties"); 

//Set the necessary command to execute the application master 

Vector«CharSequence» vargs = new Vector«CharSequence» (30); 

//Set java executable command 

LOG.info("Setting up app master command"); 

vargs.add(Environment.JAVA HOME.$$() + "/bin/java"); 

//Set Xmx based on am memory size 

vargs.add("-Xmx" + amMemory + "m"); 

//Set class name 

vargs.add(appMasterMainClass); 

//Set params for Application Master 

vargs.add("--container memory " + String.valueOf (containerMemory)); 

vargs.add("--container vcores " + String.valueOf (containerVirtualCores)); 

vargs.add("--num containers " + String.valueOf (numContainers)); 

vargs.add("--priority " + String.valueOf (shellCmdPriority)); 

for (Map.Entry«String, String» entry : shellEnv.entrySet()) ( 

vargs.add("--shell env " + entry.getKey() + " * entry.getValue()); 














l 
if (debugFlag) ( 
vargs.add("--debug"); 


) 
vargs.add("1»" + ApplicationConstants.LOG DIR EXPANSION VAR 
* "/AppMaster.stdout"); 
vargs.add("2»" + ApplicationConstants.LOG DIR EXPANSION VAR 
* "/AppMaster.stderr"); cdi T 
//Get final commmand 
StringBuilder command = new StringBuilder (); 
for (CharSequence str : vargs) { 
command.append (str) .append(" "); 
} 
LOG. info ("Completed setting up app master command " + command.toString ()); 
List<String> commands = new ArrayList«String»(); 
commands .add (command. toString () ); 
//Set up the container launch context for the application master 
ContainerLaunchContext amContainer = ContainerLaunchContext.newInstance( 
localResources, env, commands, null, null, null); 
//Set up resource type requirements 
//For now, both memory and vcores are supported, so we set memory and 
//vcores requirements 
Resource capability = Resource.newInstance (amMemory, amVCores); 
appContext.setResource (capability); 
//Service data is a binary blob that can be passed to the application 
//Not needed in this scenario 
//amContainer.setServiceData (serviceData); 
//Setup security tokens 
if (UserGroupInformation.isSecurityEnabled()) ( 
//Note: Credentials class is marked as LimitedPrivate for HDFS 
//and MapReduce 
Credentials credentials = new Credentials (); 
String tokenRenewer - conf.get(YarnConfiguration.RM PRINCIPAL); 
if (tokenRenewer -- null || tokenRenewer.length() == 0) ( 
throw new IOException( 
"Can't get Master Kerberos principal for the RM to use as renewer"); 
} 
//For now, only getting tokens for the default file-system. 
final Token«?» tokens[] - 
fs.addDelegationTokens (tokenRenewer, credentials); 
if (tokens !- null) ( 
for (Token«?» token : tokens) { 
LOG.info("Got dt for " + fs.getUri() + "; " + token); 
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} 
DataOutputBuffer dob = new DataOutputBuffer(); 
credentials.writeTokenStorageToStream (dob); 
ByteBuffer fsTokens = 
ByteBuffer.wrap(dob.getData(), 0, dob.getLength()); 

amContainer.setTokens (fsTokens); 

} 

appContext.setAMContainerSpec (amContainer); 


(4) 创建 过 程 完成 后 ， 客 户 端 指定 优先 级 、 队 列 并 提交 作业 : 


//Set the priority for the application master 

Priority pri - Priority.newInstance (amPriority); 
appContext.setPriority (pri); 

//Set the queue to which this application is to be submitted in the RM 
appContext.setQueue (amQueue) ; 

//Submit the application to the applications manager 
//SubmitApplicationResponse submitResp = 

// applicationsManager.submitApplication (appRequest) ; 
yarnClient.submitApplication (appContext); 


此 时 ，RM 会 收 到 作业 提交 ， 并 在 后 台 根 据 指定 资源 要 求 分 配 一 个 master 容器 ， 以 此 
启动 AM。 

客户 端 有 多 种 方式 可 以 跟踪 作业 的 进度 。 如 客户 端 可 以 与 RM 建立 连接 ,通过 YarnClient 
的 getApplicationReport() 方 法 获得 应 用 的 报告 信息 : 


//Get application report for the appId we are interested in 
ApplicationReport report = yarnClient.getApplicationReport (appId) ; 


从 RM 获得 的 应 用 报告 包含 下 面 的 信息 。 

© 通用 作业 信息 : 作业 id、 队 列 、 提 交 用 户 和 启动 时 间 。 

Q AM 详细 信息 : AM 运行 的 host, rpe 端口 。AM 侦 听 该 端口 并 及 时 响应 来 自 客户 
端的 请 求 。 

© 应 用 跟踪 信息 : 通过 ApplicationReport 的 getTrackingUrl0) 方 法 获取 应 用 的 跟踪 url, 
客户 端 通过 该 url 监控 进度 。 

© EARE: 应 用 程序 的 状态 可 通过 ApplicationReport 的 getYarnApplicationState 方 
法 获取 。 如 果 YarnApplicationState 被 设置 成 了 FINISHED ,客户 端 将 会 根据 ApplicationReport 
#getFinalApplicationStatus 来 检查 应 用 的 状态 。 在 应 用 失败 的 情况 下 ，ApplicationReport 的 
getDiagnostics 方法 是 非常 有 用 的 。 

© 如 果 设置 了 AM 支持， 客户 端 可 以 直接 通过 host:rpcport 查询 AM 应 用 的 进度 。 

2. 编写 AM 


应 用 管理 器 (AM) 是 作业 的 拥有 者 和 管理 者 。RM 通过 客户 端 得 到 启动 AM 所 有 需要 的 
信息 和 资源 ， 初 始 化 AM 对 象 并 启动 。AM 的 启动 参数 是 通过 环境 提供 给 它 的 ， 当 AM 在 
容器 中 被 启动 的 时 候 ， 可 能 与 其 他 的 容器 共享 一 个 物理 主机 。AM 启动 参数 包括 : AM 容器 
的 ContainerIld、 应 用 提交 时 的 时 间 和 运行 AM 的 NM 的 详细 信息 。 与 RM 的 内 部 交互 需要 
ApplicationAttemptId， 该 值 可 以 从 AM 的 容器 中 通过 ApplicationAttemptId 方法 获得 ， 并 且 
有 方便 易 用 的 API， 将 从 环境 获得 的 值 配置 到 对 象 中 。 


Map<String，String> envs 
String containerIdString 


System.getenv(); 


m 


PS 从 基础 理论 到 最 佳 实践 


envs.get(ApplicationConstants.AM CONTAINER ID ENV); 
if (containerIdString == null) ( 

//container id should always be set in the env by the framework 

throw new IllegalArgumentException( 

"ContainerId not set in the environment"); 

} 
ContainerId containerId = ConverterUtils.toContainerId (containerIdString); 
ApplicationAttemptId appAttemptID = containerId.getApplicationAttemptId(); 


在 AM 初始 化 完成 后 ， 启 动 两 个 客户 端 : 一 个 与 ResoureeManager 通信 ， 一 个 与 
NodeManagers 通信 : 


AMRMClientAsync.CallbackHandler allocListener new RMCallbackHandler () ; 
amRMClient - AMRMClientAsync.createAMRMClientAsync(1000, allocListener); 
amRMClient.init (conf); 

amRMClient.start(); 

containerListener = createNMCallbackHandler () ; 

nmClientAsync = new NMClientAsyncImpl (containerListener); 
nmClientAsync.init (conf); 

nmClientAsync.start(); 


AM 必须 发 送 心跳 给 RM， 保证 信息 的 持续 性 ， 表 示 AM 正在 运行 中 。AM 与 RM 的 连 
接 超时 是 可 配置 的 ， 该 属性 为 YarnConfiguration RM_AM_EXPIRY INTERVAL MS， 该 值 
的 默认 值 为 YamConfiguration.DEFAULT RM. AM EXPIRY INTERVAL MS. AM 在 发 送 
心跳 前 ， 需 要 先 向 RM 进程 注册 。 


//Register self with ResourceManager 

//This will start heartbeating to the RM 

appMasterHostname = NetUtils.getHostname(); 

RegisterApplicationMasterResponse response - amRMClient 
.registerApplicationMaster(appMasterHostname, appMasterRpcPort, 
appMasterTrackingUrl); 


AM 的 注册 返回 中 , 包括 了 最 大 资源 量 。 可 以 根据 这 个 信息 ， 判 断 应 用 的 资源 的 请 求 是 
否 能 被 满足 : 


//Dump out information about cluster capability as seen by the 
//resource manager 

int maxMem = response.getMaximumResourceCapability().getMemory(); 
LOG.info("Max mem capabililty of resources in this cluster " + maxMem); 
int maxVCores = response.getMaximumResourceCapability().getVirtualCores(); 
LOG.info ("Max vcores capabililty of resources in this cluster " + maxVCores); 


//A resource ask cannot exceed the max. 
if (containerMemory » maxMem) ( 
LOG.info("Container memory specified above max threshold of cluster." 
* " Using max value." + ", specified-" + containerMemory + ", max-" 
+ maxMem); 
containerMemory = maxMem; 


if (containerVirtualCores » maxVCores) ( 
LOG.info( 
"Container virtual cores specified above max threshold of cluster." 
+ " Using max value." + ", specified-" + containerVirtualCores 
+ ", max-" + maxVCores); 
containerVirtualCores - maxVCores; 
} 
List«Container» previousAMRunningContainers = 
response.getContainersFromPreviousAttempts (); 
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LOG.info("Received " + previousAMRunningContainers.size() 
+ " previous AM's running containers on AM registration."); 


根据 应 用 的 配置 , AM 可 以 申请 一 批 容器 来 运行 它 的 任务 。 我 们 可 以 计算 我 们 需要 多 少 
容器 ， 并 申请 这 些 容器 : 

List«Container» previousAMRunningContainers - 
response.getContainersFromPreviousAttempts (); 

List«Container» previousAMRunningContainers - 
response.getContainersFromPreviousAttempts (); 

LOG.info("Received " + previousAMRunningContainers.size() 
* " previous AM's running containers on AM registration."); 

int numTotalContainersToRequest = 
numTotalContainers - previousAMRunningContainers.size(); 

//Setup ask for containers from RM 

//Send request for containers to RM 

//Until we get our fully allocated quota, we keep on polling RM for 

//containers 

//Keep looping until all the containers are launched and shell script 

//executed on them ( regardless of success/failure). 

for (int i-0; i«numTotalContainersToRequest; ++i) ( 
ContainerRequest containerAsk = setupContainerAskForRM(); 
amRMClient.addContainerRequest (containerAsk); 

) 


在 方法 setupContainerAskForRM() 中 ， 下 面 的 两 个 信息 需要 给 出 。 

(1) 资源 容量 : 当前 ，YARN 支持 基于 内 存 的 资源 请 求 方式 ， 因 此 需要 明确 应 用 需要 
的 内 存 大 小 。 

(2) 优先 级 ， 当 申请 容器 集 时 ，AM 可 能 为 每 个 容器 集 定义 不 同 的 优先 级 。 例 如 ， 在 
MapReduce AM 中 ，map 可 能 获得 更 高 的 权限 容器 ， 而 reduce 获得 较 低 的 权限 容器 。 


private ContainerRequest setupContainerAskForRM() { 
//setup requirements for hosts 
//using * as any host will do for the distributed shell app 
//set the priority for the request 
Priority pri = Priority.newInstance (requestPriority); 


//Set up resource type requirements 

//For now, memory and CPU are supported so we set memory 

//and cpu requirements 

Resource capability = Resource.newInstance (containerMemory, 
containerVirtualCores); 


ContainerRequest request - 
new ContainerRequest(capability, null, null, pri); 
LOG.info("Requested container ask: " + request.toString()); 
return request; 
} 


AM 发 送 容器 申请 请 求 后 ， 容 器 将 会 通过 AMRMClientAsync 客户 端的 事件 处 理 以 异步 
模式 启动 。 当 容器 分 配 成 功 后 ， 处 理 器 将 启动 一 个 线程 来 运行 容器 : 


GOverride 
public void onContainersAllocated(List«Container» allocatedContainers) ( 
LOG.info("Got response from RM for container ask, allocatedCnt-" 
+ allocatedContainers.size()); 
numAllocatedContainers.addAndGet (allocatedContainers.size()); 
for (Container allocatedContainer : allocatedContainers) ( 


= 
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LaunchContainerRunnable runnableLaunchContainer = 
new LaunchContainerRunnable (allocatedContainer, 
containerListener); 

Thread launchThread = new Thread (runnableLaunchContainer); 


//launch and start the container on a separate thread to keep 
//the main thread unblocked 

//as all containers may not be allocated at one go. 
launchThreads.add(launchThreag); 

launchThread.start(); 


) 
通过 心跳 ，AM 向 RM 汇报 作业 进度 : 


GOverride 
public float getProgress() ( 
//set progress to deliver to RM on next heartbeat 
float progress - 
(float)numCompletedContainers.get() / numTotalContainers; 
return progress; 
) 


在 容器 被 分 配给 AM 后 ，NMs 上 的 容器 启动 线程 启动 容器 : 


//Set the necessary command to execute on the allocated container 
Vector«CharSequence» vargs = new Vector«CharSequence» (5); 
//Set executable command 
vargs .add (shellCommand) ; 
//Set shell script path 
if (!scriptPath.isEmpty()) { 

vargs.add(Shell.WINDOWS? 

ExecBatScripStringtPath : ExecShellStringPath); 

) 


//Set args for the shell command if any 

vargs.add(shellArgs); 

//Add log redirect params 

vargs.add("1»" + ApplicationConstants.LOG DIR EXPANSION VAR + "/stdout"); 
vargs.add("2»" + ApplicationConstants.LOG DIR EXPANSION VAR + "/stderr"); 


//Get final commmand 

StringBuilder command - new StringBuilder(); 

for (CharSequence str : vargs) ( 
command.append(str).append(" "); 

) 


List«String» commands = new ArrayList«String»(); 
commands .add (command.toString()); 


//Set up ContainerLaunchContext, setting local resource, environment, 
//command and token for constructor. 


//Note for tokens: Set up tokens for the container too. Today, for normal 
//shell commands, the container in distribute-shell doesn't need any 
//tokens. We are populating them mainly for NodeManagers to be able to 
//download any files in the distributed file-system. The tokens are 
//otherwise also useful in cases, for e.g., when one is running a 
//"hadoop dfs" command inside the distributed shell. 
ContainerLaunchContext ctx = ContainerLaunchContext .newInstance( 
localResources, shellEnv, commands, null, allTokens.duplicate(), null); 
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containerListener.addContainer(container.getId(), container); 
nmClientAsync.startContainerAsync(container, ctx); 


NMClientAsync 对 象 以 及 它 的 时 间 处 理 器 处 理 容器 事件 。 包 括 容器 的 启动 、 停 止 、 状 态 
更 新 、 错 误 发 生 。 在 AM 确定 作业 完成 后 ，AM 需要 通过 AM-RM 客户 端 对 象 来 注销 该 作 
业 ， 然 后 停止 该 客户 端 : 


try { 

amRMClient.unregisterApplicationMaster(appStatus, appMessage, null); 
) catch (YarnException ex) ( 

LOG.error("Failed to unregister application", ex); 
) catch (IOException e) ( 

LOG.error("Failed to unregister application", e); 








i 
amRMClient.stop(); 


4.10 YARN 服务 注册 


在 分 布 式 环境 中 ， 发 现 与 定位 服务 是 一 个 问题 ， 本 节 介绍 如 何 将 服务 注册 至 集群 中 。 


4.10.1 为 什么 需要 服务 注册 


服务 注册 表 是 部 署 在 Hadoop 集群 上 的 一 个 服务 ， 它 允许 应 用 注册 并 与 应 用 建立 通信 。 
客户 端 应 用 程序 可 以 定位 服务 ， 并 使 用 绑 定 信息 连接 到 服务 的 网 络 终端 。 

客户 端 如 何 与 YARN 上 已 部 署 的 服务 交互 以 及 组 成 服务 的 组 件 是 什么 ? 服务 注册 表 运 
行 Hadoop 注册 核心 服务 ， 减 少 配置 参数 、 人 允许 核心 服务 可 以 被 更 容易 地 转移 。 

服务 的 注册 和 发 现 是 在 分 布 式 计算 领域 中 一 个 长 期 存在 的 问题 。 这 个 方案 是 为 了 定位 
YARN 集群 中 的 分 布 式 应 用 ， 确 定 与 应 用 交互 需要 的 绑 定 信息 。 


4.10.2 配置 服务 注册 


YARN 服务 注册 服务 基于 Apache Zookeeper 创建 ， 通 过 实现 Hadoop 的 Configuration 
类 来 实现 。 配 置 参数 决定 了 注册 的 客户 端 和 它 在 YARN RM 中 的 部 署 。 服 务 注 册 表 的 默认 
值 都 配置 在 core-default.xml 中 。 

修改 配置 值 : 如 果 要 修改 服务 注册 表 的 值 ， 需 要 在 文件 core-site xml 中 重新 指定 。 这 可 
以 保证 客户 端 和 非 YARN 应 用 都 能 读 到 这 些 值 。 

RM 管理 在 YARN 容器 /应 用 、 临 时 /应 用 上 用 户 创建 目录 和 清除 记录 : 


<property> 

<description> 
如 果 是 true，YARN 的 资源 管理 器 打开 了 注册 功能 ， 反 之 关闭 注册 功能 。 打 开 的 情况 下 ， 将 创建 用 
户 和 系统 的 路 径 ， 自 动 清除 容器 、 作 业 、attempt 完成 时 的 记录 数据 。 在 关闭 情况 下 ， 用 户 和 系统 
路 径 通过 其 他 方式 创建 ， 也 不 会 自动 清除 容器 、 作 业 、attempt 的 数据 

«/description» 

«name»hadoop.registry.rm.enabled«/name» 

«value»false«/value» 
</property> 





如 果 hadoop.registry.rm.enabled 在 core-site xml 或 者 yam-site xml 中 设置 为 true, YARN 
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RM 将 要 有 下 面 的 行为 。 
(1) 启动 时 ，RM 创建 root 路 径 /、/services 和 /users。 在 安全 集群 中 ， 只 限制 系统 账号 














可 以 访问 。 
(D) 当 用 户 提交 应 用 时 : 在 /users 下 创建 该 用 户 的 目录 。 
(3) 当 容 器 完成 时 : 删除 该 容器 左右 的 服务 记录 。 
(4) 当 应 用 临时 完成 时 : 删除 该 应 用 临时 的 所 有 服务 记录 。 
(5) 当 应 用 完成 时 : 删除 该 应 用 的 所 有 服务 记录 。 


上 面 的 操作 都 是 异步 模式 ， 所 以 zookeeper 连接 问题 不 会 延迟 RM 工作 调度 。 

如 果 hadoop.registry.rm.enabled 属性 的 值 设置 为 false， 那 么 ，RM 不 会 与 注册 器 存在 交 
互 操 作 ， 上 面 列 出 的 操作 也 不 会 发 生 。root 的 根 目录 可 能 被 其 他 设置 而 创建 , 但 是 ， 服 务 记 
录 的 清除 不 会 发 生 。 


4.10.3 ”安全 选项 


注册 安全 可 以 通过 hadoop.registry.secure 来 打开 。 一 旦 设置 ， 在 zookeeper 创建 权限 节 
点 ， 只 有 指定 的 用 户 和 从 配置 集群 的 超级 账号 可 以 写 $ {hadoop.registry.zk.root}/users。 只 有 
超级 账号 可 以 访问 root 路 径 ， 包 括 ${hadoop.registry.zk.root}/services 和 $ (hadoop.registry.zk. 
root}/users。 对 注册 器 的 操作 必须 认证 。 读 操作 对 未 授权 账号 也 要 进行 权限 验证 。 

打开 安全 验证 : 


<property> 

<description> 
Key to set if the registry is secure. Turning it on 
changes the permissions policy from "open access" 
to restrictions on kerberos with the option of 
a user adding one or more auth key pairs down their 
own tree. 

</description> 

<name>hadoop.registry.secure</name> 

<value>false</value> 

















</property> 
认证 客户 端 JAAS 上 下 文 。 注 册 客 户 端 必须 指定 JAAS 上 下 文 ， 用 户 用 于 注册 认证 : 
<property> 
<description> 
Key to define the JAAS context. Used in secure mode 
</description> 


<name>hadoop.registry.jaas.context</name> 
<value>Client</value> 
</property> 


本 章 围绕 YARN 的 基本 概念 、 基 本 原理 、 调 度 模型 、 编 程 实践 、 集 群 部 署 与 管理 进行 
了 介绍 与 实践 。 
通过 本 章 的 学 习 ， 读 者 应 能 够 基本 掌握 YARN 的 部 署 与 使 用 ， 为 后 续 学 习 打 下 基础 。 
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本 章 带 读者 一 起 学 习 MapReduce， 它 是 在 大 数据 领域 中 最 为 流行 且 经 
得 住 考验 的 分 布 式 计 算 框架 。MapReduce 对 负责 逻辑 进行 高 度 归 约 ， 抽 象 
为 Mapper 和 Reducer 类 ,复杂 逻辑 通过 理解 ， 转 化 为 符合 MapReduce 函数 
处 理 的 模式 。 

本 章 主要 以 官方 提供 的 资料 为 基础 ， 结 合 实践 理解 进行 讲述 。 

通过 本 章 的 学 习 ， 读 者 应 能 够 掌握 MapReduce 的 基本 知识 ， 能 够 编写 
自己 的 MapReduce 程序 。 








W MapReduce 概述 

W — Key-Value 结构 

m MapReduce 的 部 署 

W MapReduce 的 编程 接口 
W  MapReduce 的 命令 行 

W — WordCount 的 实现 


«ds 从 基础 理论 到 最 佳 实践 


5.1 MapReduce 概述 


MapReduce 是 一 种 分 布 式 计算 框架 ， 可 通过 普通 廉价 的 服务 器 搭建 海量 且 具 有 极 高 可 
扩展 性 的 计算 平台 。 


5.1.1 Hadoop MapReduce 


Hadoop MapReduce 是 一 个 软件 架构 ， 在 数 以 千 计 的 普通 硬件 构成 的 集群 中 ， 以 平行 计 
算 的 方式 处 理 海量 数据 ， 该 计算 框架 具有 很 高 的 稳定 性 和 容错 能 力 。MapReduce job 会 划分 
输入 数据 集 为 独立 的 计算 块 , 这些 分 块 被 map 任务 以 完全 并 行 、 独 立 模式 处 理 。MapReduce 
框架 对 maps 的 输出 进行 排序 ， 排 序 后 ， 数 据 作 为 reduce 任务 的 输入 数据 。job 的 input 和 
output 数据 都 存储 在 HDFS 文件 系统 中 。 计 算 框架 管理 作业 调度 、 监 控 作 业 、 重 新 执行 失败 
任务 。 在 一 个 集群 中 , 计算 节点 和 存储 节点 是 相同 的 , 也 就 是 说 , MapReduce 框架 和 Hadoop 
分 布 式 文件 系统 运行 在 相同 的 节点 上 。 这 种 配置 会 使 得 MR 框架 在 已 有 数据 的 节点 上 实现 
本 地 化 的 调度 任务 ， 从 而 提升 计算 性 能 。MR 框架 包括 一 个 RM 作为 管理 者 , 集群 中 ， 其 他 
节点 上 都 会 部 署 一 个 NodeManager, 每 类 应 用 会 启动 一 个 MRAppMaster。 应 用 需要 指定 input 
和 output 的 路 径 ， 实 现 接口 的 抽象 函数 map 和 reduce。 连 同 其 他 参数 ， 构 成 job 的 配置 信 
息 。Hadoop job 客户 端 提交 job 和 配置 信息 到 RM，RM 负责 分 发 执行 包 /配置 信息 到 工作 节 
点 上 ， 调 度 任 务 并 监控 应 用 ， 并 把 应 用 状态 和 诊断 信息 返回 到 job 客户 端 。 

虽然 Hadoop 框架 是 用 Java 语言 实现 的 ， 但 是 ，MapReduce 引用 可 以 通过 下 面 的 方式 
以 多 种 语言 运行 MapReduce 程序 。 

(1) Hadoop Streaming: 是 一 个 应 用 程序 ， 相当 于 用 户 与 MR 接口 之 间 的 Shell， 它 能 运 
行 其 他 的 语言 形式 ， 比 如 Shell 程序 ， 作 为 map 和 reduce 函数 。 

(2) Hadoop Pipes: 是 一 个 兼容 MapReduce 应 用 的 C++ 的 API。 


5.4.2 MapReduce 的 发 展 史 


MapReduce 的 设计 思想 来 源 于 Google 的 MapReduce 论文 ， 其 核心 便 是 计算 并 行 化 , 对 
大 文件 数据 进行 分 而 治之 。 分 布 式 计算 是 解决 海量 数据 的 有 效 方法 。 在 面临 海量 数据 的 存 
储 、 计 算 挑 战 时 ， 技 术 领 域 有 两 种 截然 不 同 的 选择 。 

第 一 种 选择 是 : 继续 提升 硬件 技术 ， 采 用 更 高 性 能 的 计算 机 服务 器 。 这 需要 在 技术 、 
资金 方面 投入 很 多 的 人 力 、 物 力 。 而 且 硬 件 技术 的 发 展 遵循 摩尔 定律 ， 很 难 应 对 急速 增长 
的 海量 数据 。 因 这 种 选择 存在 不 确定 性 ， 所 以 ， 这 也 为 探索 其 他 解决 方案 做 了 铺垫 。 

第 二 种 选择 是 : 从 软件 的 角度 解决 大 数据 计算 问题 。 单 机 模式 已 不 能 应 对 TB 级 或 更 高 
数据 量 级 的 运算 ， 必 然 寻求 多 机 模式 ， 即 现在 常 说 的 分 布 式 计算 。 多 机 模式 的 发 展 也 比较 
早 ， 早 期 的 POP 技术 就 是 多 机 模式 的 一 种 。 多 机 模式 的 核心 思想 是 通过 多 台 计 算 机 协调 合 
作 ， 完 成 一 个 计算 任务 。 

分 布 式 计算 的 要 素 如 下 。 
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(1) 硬件 资源 : 普通 服务 器 即 可 。 一 般配 置 为 : 硬盘 大 于 或 等 于 1TB， 内 存 大 于 或 等 
于 32GB，CPU 大 于 等 于 8 核 。 

Q) 网 络 资源 : 分 布 式 计 算是 通过 网 络 来 协调 数据 与 程序 的 部 署 的 ， 在 计算 过 程 中 也 
会 有 大 量 的 中 间 数 据 需要 在 不 同 的 节点 上 进行 传输 ， 因 此 ， 网 络 带宽 是 分 布 式 集群 的 一 个 
重要 指标 。MR 分 布 式 集群 一 般 采 用 千 兆 网 卡 (局 域 网 模式 )。 

(3) 软件 工具 ， 本 章 介绍 的 分 布 式 软件 为 Hadoop 中 的 计算 框架 MapReduce。 


5.1.3 MapReduce 的 使 用 场景 


MapReduce 采用 key-value 的 编程 模式 , 可 以 将 复杂 的 业务 高 度 抽象 成 map 函数 reduce 

函数 。MapReduce 常用 的 处 理 业务 有 如 下 几 种 。 

@ 志 解 析 ( 数 据 仓 库 ): 将 非 结 构 化 数据 整理 为 结构 化 数据 ， 可 以 对 HDFS 中 的 结构 
化 数据 通过 hive 管理 ， 经 过 业务 的 层 域 划分 ， 沉 淀 为 数据 仓库 。ETL 工具 的 核心 
功能 是 源 文件 数据 解析 ， 通 过 map 函数 ， 将 非 规则 数据 解析 成 规则 数据 。 日 志 格 
式 一 般 可 为 固定 分 隔 符 形式 ， 也 可 为 Json 格式 。 例 如 Nginx, Apache https 日 志 ， 
可 以 格式 化 为 分 隔 符 形式 ， 也 可 以 格式 化 为 Json 形式 。 日 志 格式 在 企业 建设 大 数 
据 平 台 时 非常 重要 ， 合 理 的 日 志 规范 能 大 大 降低 ETL 中 的 大 量 重 复工 作 。Json 格 
式 的 日 志 是 创建 自动 化 ETL 工具 的 最 好 选择 。 

e 数据 统计 : 对 海量 数据 的 应 用 ， 最 直接 的 业务 需求 即 为 统计 方向 。 根 据 ETL 整理 
的 结构 化 数据 ， 结 合 运营 的 关键 指标 ， 用 MapReduce 实现 统计 逻辑 。 这 需要 对 程 
序 设 计 有 较 高 的 经 验 积累 ， 对 编程 语言 也 有 较 高 的 要 求 ， 非 研发 部 门 的 员工 使 用 
MapReduce 实现 统计 基本 是 不 可 能 的 。 幸 运 的 是 ， 随 着 hive 的 出 现 ，MapReduce 
的 使 用 门槛 大 大 降低 了 。 数 据 使 用 人 员 可 以 通过 SQL 类 的 HiveQL 语句 来 实现 复 
A028. 但 HiveQL 并 不 能 完全 替代 MapRuduce, 比如 当 计 算 维 度 不 同 的 统计 指标 
时 ， 只 能 分 别 写 HiveQL， 造 成 极 大 的 资源 浪费 。 

e 分析 挖 掘 : 这 是 大 数据 领域 比较 深入 的 部 分 ， 用 MapReduce 实现 分 析 模 型 。 用 户 
宽 表 、 用 户 画 像 都 属于 分 析 挖 掘 的 范畴 。Mahout 提供 了 常用 的 30 多 种 挖掘 算法 。 
用 户 可 以 基于 此 方便 地 实现 挖掘 任务 。 


5.2 Key-Value 结构 的 特点 




















在 介绍 MapReduce 计算 框架 前 , 先 介绍 一 下 Key-Value 对 数据 结构 。Key-Value 结构 是 
大 数据 处 理 领域 中 很 常见 的 数据 结构 。key 具有 索引 性 质 ， 可 以 快速 定位 数据 ;value 数据 
灵活 ， 字 段 数 、 长 度 变化 自由 ， 非 常 适合 根据 key 键 值 进行 查询 的 需求 场景 ， 但 对 于 根据 
value 值 进行 查询 的 需求 ， 效 率 会 很 低 ， 或 者 工具 根本 不 提供 技术 接口 。 
5.2.1 key 的 设计 

1. 保证 key 的 唯一 性 

如 果 key 重复 , 在 KV 技术 中 会 覆盖 已 有 数据 ,造成 数据 丢失 或 者 抛 出 异常 ， 导 致 系统 
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不 稳定 。 比 较 好 的 方法 如 HBase, 2 key 打 时 间 戳 ， 该 时 间 惟 有 版 本 控制 ， 超 出 最 大 值 后 
将 循环 覆盖 。 在 MR 中 的 key 完全 由 用 户 控制 ，key 值 相 同 则 将 value 归 约 为 List 列表 。 

2. 组 成 key 的 散 列 字段 具有 实际 意义 

时 间 字 段 细 化 到 小 时 即 可 ， 更 精确 的 时 间 字 段 对 于 批 处 理 平 台 没 有 多 大 意义 。key 末 位 
最 好 为 id 字段 。key 设计 的 准则 为 : 根据 idc、 业 务 、 规 则 、id 等 ， 可 以 拼 出 key 值 ， 这 是 
设计 key 的 核心 所 在 。 不 能 确定 key， 就 意味 着 只 能 进行 范围 查询 ， 效 率 必定 低 很 多 。 

3. Key 的 长 度 短 则 性 能 高 

在 满足 1、2 的 前 提 下 ，key 越 短 越 好 。 在 大 数据 存储 中 ，1 个 字 节 会 积累 成 海量 数据 。 

在 Key-Value 的 系统 中 ，key 的 设计 是 最 关键 环节 ， 糟 糕 的 设计 将 使 得 系统 性 能 低下 ， 
或 者 很 多 需求 无 法 实现 。 


5.2.2 value 的 设计 


(1) 把 需要 的 数据 信息 都 写 在 value 中 。 
(2) value 的 格式 可 以 采用 字段 形式 ， 类 似 数据 库 的 field; 也 可 以 采用 Json 格式 。 取 出 
value 后 进行 格式 转换 ， 从 而 能 方便 地 取 到 各 个 字段 。 























5.3 MapReduce 的 部 署 


我 们 以 Hadoop 2.7.0 版 本 为 实践 版 本 ， 读 者 在 使 用 其 他 版 本 时 ， 同 样 以 官方 说 明 为 准 。 
单 节点 部 署 Hadoop(Linux，CentOS 6.5)， 以 伪 分 布 式 部 署 为 例 ， 我 们 将 与 读者 一 起 ， 实 践 
MapReduce 的 计算 框架 。 


5.3.1 软件 准备 


使 用 Hadoop 2.7.0，Java 1.7。 
不 同 的 Hadoop 版 本 需要 的 Java 有 所 不 同 ， 需 要 根据 官方 文档 确定 。 如 最 新 2.7 版 本 的 
Hadoop， 可 用 Java 版 本 如 表 5-1 所 示 。 


表 5-1 可 用 的 Java 版 本 











Version Status Reported By 
oracle 1.7.0 15 Good Cloudera 
oracle 1.7.0 21 Good (4) Hortonworks 
oracle 1.7.0 45 Good Pivotal 


openjdk 1.7.0 09-icedtea Good (5) Hortonworks 





oracle 1.6.0 16 Avoid (1) Cloudera 
oracle 1.6.0 18 Avoid Many 
oracle 1.6.0 19 Avoid Many 











Version Status Reported By 


MapReduce 


续 表 





oracle 1.6.0 20 Good (2) LinkedIn, Cloudera 





oracle 1.6.0 21 Good (2) Yahoo!, Cloudera 





oracle 1.6.0 24 Good Cloudera 





oracle 1.6.0 26 Good (2) Hortonworks, Cloudera 





oracle 1.6.0 28 Good LinkedIn 
oracle 1.6.0 31 Good (3. 4) Cloudera, Hortonworks 





532 ”配置 文件 


SSH 及 免 密 登录 ， 配 置 如 下 所 示 : 


$ ssh-keygen -t dsa -P '' -f ~/.ssh/id dsa 

$ cat -/.ssh/id dsa.pub >> -/.ssh/authorized keys 
$ chmod 0600 -/.ssh/authorized keys 

$ chmod 0700 -/.ssh m 


配置 、 启 动 YARN， 配 置信 息 如 下 所 示 。 
etc/hadoop/mapred-site.xml: 


«configuration» 
<property> 
<name>mapreduce . framework .name</name> 
<value>yarn</value> 
</property> 
</configuration> 


etc/hadoop/yarn-site.xml: 


<configuration> 
<property> 
<name>yarn.nodemanager .aux-services</name> 
<value>mapreduce_shuffle</value> 
</property> 
</configuration> 


5.3.3 ”启动 YARN 守护 进程 


启动 YARN 守护 进程 : 


$ sbin/start-dfs.sh 


通过 jps 查看 是 否 有 ResourceManager 进程 存在 。 


5.4 MapReduce 的 程序 结构 





MapReduce 程序 框架 的 输入 、 输 出 为 键 值 对 的 形式 , 需要 开发 与 之 对 应 的 map 与 reduce 
方法 : 


€ 


eq) A 从 基础 理 论 到 最 佳 实 中 
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5.4.1 MR 框架 的 输入 和 输出 


MR 框架 仅 操 作 <key, value> 对 。MR 把 job 的 输入 当 作 <key, value> 对 并 产生 <key, value 
对 作为 输出 , 输入 和 输出 的 数据 类 型 没有 必然 关系 。key 和 value 类 必须 被 框架 进行 序列 化 ， 
有 些 还 需要 实现 其 Writable 接口 。 此 外 ，key 类 必须 实现 WritableComparable 接口 ， 以 便 容 
易 实 现 框 架 排 序 。MapReduce job 的 输入 和 输出 类 型 如 下 : 


(input) «kl, vl» -> map -> «k2, v2» -> combine -> «k2, v2» -> reduce -> 
Xk3, v3» (output) 














5.4.2 WordCount 


在 详细 介绍 MapReduce 之 前 ， 让 我 们 先 看 一 个 MapReduce 应 用 的 例子 ， 通 过 例子 理解 
一 下 它 的 工作 过 程 。 
WordCount 是 一 个 简单 的 应 用 ， 统 计 出 文件 中 每 个 单词 的 出 现 次 数 : 


public class WordCount ( 


public static class TokenizerMapper 
extends Mapper«Object, Text, Text, IntWritable» ( 


private final static IntWritable one = new IntWritable (1); 
private Text word - new Text(); 


public void map(Object key, Text value, Context context) 
throws IOException, InterruptedException ( 
StringTokenizer itr = new StringTokenizer (value.toString()); 
while (itr.hasMoreTokens()) ( 
word.set(itr.nextToken()); 
context.write(word, one); 


} 


public static class IntSumReducer 
extends Reducer«Text, IntWritable, Text, IntWritable» ( 
private IntWritable result - new IntWritable(); 


public void reduce(Text key, Iterable«IntWritable» values, 
Context context) throws IOException, InterruptedException ( 
int sum = 0; 
for (IntWritable val : values) ( 
sum += val.get(); 
} 
result.set (sum); 
context.write(key, result); 


} 


public static void main(String[] args) throws Exception { 
Configuration conf = new Configuration(); 
Job job = Job.getInstance(conf, "word count"); 
job.setJarByClass (WordCount.class); 
job.setMapperClass (TokenizerMapper.class); 
job.setCombinerClass (IntSumReducer.class); 
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job.setReducerClass (IntSumReducer.class); 
job.setOutputKeyClass (Text.class); 
job.setoutputValueClass (IntWritable.class); 
FileInputFormat.addInputPath (job, new Path (args[0])); 
FileOutputFormat.setOutputPath(job, new Path(args[1])); 
System.exit(job.waitForCompletion(true)? 0 : 1); 


) 
假设 环境 变量 如 下 : 


export JAVA HOME=/usr/java/default 
export PATH=${JAVA HOME}/bin:${PATH} 
export HADOOP CLASSPATH-$(JAVA HOME)/lib/tools.jar 


编译 WordCount java 并 打 JAR 包 : 


$ bin/hadoop com.sun.tools.javac.Main WordCount.java 
$ jar cf wc.jar WordCount*.class 


假设 : 

/user/joe/wordcount/input 7j HDFS 中 的 目录 。 
/user/joe/wordcount/output 为 HDFS 中 的 目录 。 
则 : 


$ bin/hadoop fs -1s /user/joe/wordcount/input/ 
/user/joe/wordcount/input/file01 /user/joe/wordcount/input/file02 
$ bin/hadoop fs -cat /user/joe/wordcount/input/file01 

Hello World Bye World 

$ bin/hadoop fs -cat /user/joe/wordcount/input/file02 

Hello Hadoop Goodbye Hadoop 

运行 应 用 : 

$ bin/hadoop jar wc.jar WordCount /user/joe/wordcount/input 
/user/joe/wordcount/output 


输出 为 : 


$ bin/hadoop fs -cat /user/joe/wordcount/output/part-r-00000"^ 
Bye 1 

Goodbye 1 

Hadoop 2 

Hello 2 

World 2^ 


应 用 可 以 用 -file 选项 ， 后 面 跟 上 逗号 分 隔 的 路 径 列表 ， 作 为 当前 任务 的 工作 目录 。 
以 -libjars 选项 运行 应 用 ， 增 加 JAR 包 到 maps 和 reduces 的 classpath 中 。 以 -archives 选 
项 运行 WordCount 例子 ， 带 着 -libjars、-files 和 -archives 三 个 选项 : 


bin/hadoop jar hadoop-mapreduce-examples-«ver».jar wordcount -files 
cachefile.txt -libjars mylib.jar -archives myarchive.zip input output 


其 中 : 

myarchive.zip 表示 负载 指定 目录 下 的 文件 。 

dirl/dict.txt 和 dir2/dict.txt 两 个 文件 ， 分 别 通过 符号 dictl 和 dict2 访问 。mytartgz 放 在 
tgzdir 的 目录 中 。 





Jam , 
从 基础 理论 到 最 佳 实践 
"ys 


下 面 对 实 践 代 码 进行 重点 分 析 。 分 别 介绍 该 任务 的 两 个 最 重要 的 实现 方法 。 
(1) map 方法 : 


public void map (Object key, Text value, Context context) 
throws IOException, InterruptedException ( 
StringTokenizer itr = new StringTokenizer (value.toString()); 
while (itr.hasMoreTokens()) ( 
word.set(itr.nextToken()); 
context.write(word, one); 




















} 

通过 map 方法 实现 Mapper 接口 ， 一 次 处 理 一 行 数据 。 

比如 ， 可 以 指定 输入 为 TextInputFormat 格式 。 然 后 可 以 通过 StringTokenizer 根据 空格 
行 数据 分 隔 成 多 个 单元 ， 并 发 送 一 个 Key-Value 对 <word, 1> 作 为 map 的 输出 : 


<Hello, 1> 
<World, 1> 
«Bye, 1> 

<World, 1> 


(2) reduce 方 法: 


public void reduce(Text key, Iterable«IntWritable» values, 
Context context) throws IOException, InterruptedException ( 
int sum = 0; 
for (IntWritable val : values) ( 
sum += val.get(); 


[s 
| 


} 
result.set (sum); 
context.write(key, result); 


} 

Reducer 的 实现 中 , 通过 reduce 方法 实现 对 值 的 累加 , 这 实现 了 统计 各 单词 出 现 的 次 数 。 
输出 形式 为 : 

<Bye, 1> 

<Goodbye, 1> 

<Hadoop, 2> 


<Hello, 2> 
<World, 2> 


job 的 主 方法 需要 指定 各 个 属性 ,例如 input/output 的 路 径 , key/value 的 类 型 , input/output 
的 格式 等 。 之 后 调用 job.waitForCompletion 来 提交 job 并 监控 它 的 进展 。 





5.5 MapReduce 的 编程 接口 





这 里 将 介绍 Reduce 用 户 接口 的 细节 ,帮助 用 户 以 合理 、 高 效 的 方式 配置 和 实现 作业 job。 
Hadoop 官方 文档 中 有 对 于 类 接口 的 详细 说 明 。 读 者 可 以 自行 下 载 了 解 并 查阅 最 新 版 本 的 变 
化 。MR 中 ， 最 重要 的 两 个 接口 是 Mapper 和 Reducer, TL, Hadoop 工程 师 大 部 分 时 间 
都 是 在 写 Mapper 和 Reducer 的 实现 类 。 其 他 重要 接口 包括 Job、Partitioner、InputFormat、 
OutputFormat。 最 后 讨论 两 个 框架 中 有 用 的 属性 ， 例 如 DistributedCache、IsolationRunner。 
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5.5.1 Mapper 接口 


Mapper 以 key/value 对 作为 输入 input, map 方法 的 输入 接口 将 input 文件 的 输入 记录 转 
化 为 内 部 记录 。 转 换 后 的 中 间 记 录 不 需要 与 input 记录 是 相同 的 数据 类 型 。 一 个 input 数据 
对 可 以 映射 为 0 或 多 个 输出 对 。Hadoop MR 框架 为 每 个 InputSplit 创建 map 任务 。 

Mapper 的 实现 是 通过 指定 Job.setMapperClass(Class) 方 法 传递 给 Job Ij. MR 框架 据 此 
实例 化 Mapper 对 象 并 调用 map 函数 处 理 InputSplit 中 的 每 个 key/value Xf. 在 作业 处 理 完毕 
后 ， 用 户 可 以 调用 cleanup 函数 来 处 理 需要 的 清理 操作 ， 如 释放 数据 库 长 连接 等 。map 函数 
的 输出 键 值 对 不 需要 与 输入 键 值 对 具有 相同 的 数据 类 型 。input 键 值 对 可 以 映射 为 空 或 者 其 
他 多 种 类 型 的 键 值 对 。output 键 值 对 的 收集 是 通过 调用 context write 方法 实现 的 。 在 map 之 
后 reduce 之 前 的 所 有 的 中 间 数 据 根据 输出 键 值 对 的 健 进 行 分 组 聚集 ， 并 传递 到 reduce 进行 
处 理 ， 最 终 处 理 结果 汇总 到 output 路 径 中 ， 如 果 设 置 reduce 的 输出 数 为 1， 则 输出 文件 有 1 
个 ， 达 到 数据 合并 的 目的 。 用 户 可 以 通过 指定 Job.setGroupingComparatorClass(Class) 设 置 
Comparator 来 实现 对 group 的 控制 。 

map 的 输出 要 经 过 排序 和 分 区 操作 后 ， 进 入 reduce 处 理 阶段 。 对 于 一 个 job 来 说 , 全 部 
的 分 区 数 等 于 全 部 的 reduce 数 。 用 户 可 以 通过 设置 用 户 分 区 数 来 控制 键 值 。 中 间 过 程 的 数 
据 结 构 是 以 一 种 简单 的 (key-len, key, value-len, value) 格 式 存储 的 ， 应 用 可 以 通过 配置 控制 整 
个 过 程 。 

maps 的 数据 通常 是 根据 input 文件 的 大 小 来 确定 的 ， 它 是 输入 文件 块 数 的 总 和 。maps 
并 行 化 的 适当 水 平 是 每 个 节点 10~100 个 maps。 如 果 我 们 需要 处 理 100TB 的 文件 ,并 且 HDFS 
的 blocksize 为 128MB， 那 么 ,我们 将 要 使 用 82000 个 map 任务 。 当 然 ， 可 以 通过 设置 属性 
Configuration.set(MRJobConfig.NUM MAPS, int) 指 定 map Zi. 























5.5.2 Reducer 接口 


Reducer 归 约 中 间 数 据 ， 处 理 单 元 是 基于 key 的 数据 集 。job 的 Reduces 数量 由 用 户 设 
定 的 Job.setNumReduceTasks(int) 属 性 值 来 确定 。Reducer 的 实例 化 对 象 类 通过 设置 job 的 
Job.setReducerClass(Class) 来 实现 。 逻 辑 上 ，MR 框架 调用 reduce 方法 处 理 map 的 中 间 输 出 
键 值 对 。 中 间 处 理 过 程 包括 三 个 基本 的 处 理 阶段 : 洗 牌 、 排 序 和 归 约 。 

(1) 洗 牌 。 

对 多 个 map 任务 的 输出 按照 不 同 的 分 区 (Partition) 通 过 网 络 (HTTP 协议 ) 复 制 到 不 同 的 
reduce 任务 节点 上 ， 这 个 过 程 称 为 Shuffle。 

(2) 排序 。 

在 这 个 处 理 阶 段 ，MR 框架 对 Reducer 的 数据 根据 keys 进行 排序 。 洗 牌 和 排序 是 同时 
进行 的 。 

(3) 二 次 排序 。 

在 key 排序 的 基础 上 ， 对 value 也 进行 排序 。 这 种 需求 就 是 二 次 排序 。 用 户 可 以 通过 
Job.setSortComparatorClass(Class) 指 定 一 个 Comparator. 
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(4) IE. 

reduce 方法 对 键 值 对 <key，(list of values)> 进 行 处 理 。reduce 的 输出 结果 一 般 都 会 通过 
Context.write(WritableComparable, Writable) 写 到 文件 系统 中 。 应 用 可 以 使 用 计数 器 报告 它 的 
统计 信息 。 读 者 注意 : Reducer 的 输出 是 不 被 排序 的 。 

(5) reduces 数 。 

reduce 最 合适 的 数字 是 0.95 或 1.75x 节 点 数 x 每 个 节点 上 的 容器 数 。 

用 0.95 的 时 候 ， 在 maps 完成 时 ， 所 有 reduce 可 以 立即 启动 并 开始 传输 map 的 输出 数 
Hio H 1.75 的 时 候 ， 快 的 节点 将 在 完成 它们 第 一 轮 的 reduces 后 启动 第 二 波 的 reduce。 

(6) Reducer NONE。 

没有 Reducer 的 job. 在 MapReduce 计算 框架 中 设置 reduce 的 个 数 为 0 是 合法 的 。 在 这 
种 情况 下 ，map 任务 的 输出 直接 写 入 到 文件 系统 中 ， 该 路 径 是 由 FileOutputFormat. 
setOutputPath(Job，Path) 设 置 的 。MR 框架 在 将 数据 写 入 到 文件 系统 之 前 ， 不 会 对 map 的 输 
出 进行 排序 。 


5.5.3 ”Partitioner( 分 区 ) 


分 区 是 划分 key 空间 。Partitioner 控制 map 输出 key 的 分 区 。key 通过 哈 希 函数 划分 分 
区 ， 分 区 的 总 数 等 于 job 的 reduce 的 任务 数 。 默 认 的 分 区 器 为 HashPartitioner。 


5.5.4 ”Counter( 计 数 器 ) 


计数 器 是 MR 中 被 普遍 使 用 的 一 种 报告 统计 信息 的 工具 。Mapper 和 Reducer 使 用 计数 
器 来 报告 应 用 的 统计 信息 。Hadoop 作业 维护 若干 内 置 计数 器 ， 以 描述 该 作业 的 各 项 指标 。 
例如 ， 某 些 计数 器 记录 已 处 理 的 字 节 数 和 记录 数 ， 使 用 户 可 监控 各 个 处 理 阶 段 已 处 理 的 输 
入 数据 量 和 已 产生 的 输出 数据 量 ， 例 如 : 


FILE: Number of bytes read-76956 

FILE: Number of bytes written-3799310 
FILE: Number of read operations-0 

FILE: Number of large read operations-0 
FILE: Number of write operations-0 
HDFS: Number of bytes read-83914 

HDFS: Number of bytes written-37652 
HDFS: Number of read operations-93 
HDFS: Number of large read operations-0 
HDFS: Number of write operations-2 


5.5.5 job 工作 机 理 


(1) job 配置 信息 。 

job 提供 MR 的 配置 对 象 ，job 是 用 户 描述 MR job 到 Hadoop 框架 执行 的 第 一 接口 。 它 
在 实现 层面 上 的 意义 是 MapReduce 类 作业 在 YARN 框架 上 运行 的 封装 对 象 ，MR 框架 高 容 
错 地 执行 job。 下 面 的 两 点 需要 注意 : 

© 许多 配置 文件 参数 可 能 标记 为 final， 不 能 被 更 改 。 

© 大 部 分 job 参数 可 以 被 简单 地 设置 ， 但 还 有 一 些 参数 是 通过 复杂 的 关系 继承 获得 
的 ， 用 户 不 能 直接 找到 配置 项 ， 需 要 结合 实现 ， 对 配置 进行 逐 层 分 析 。 
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Q) 任务 执行 和 环境 变量 。 

MRAppMaster 在 JVM 上 创建 child 进程 ， 独 立 执行 Mapper/Reducer 任务 。 子 任务 继承 
MRAppMaster 的 环境 变量 。 用户 可 以 通过 mapreduce.{fmaplreduce} java.opts 指定 其 他 的 子 任 
务 的 选项 ， 并 配置 参数 ， 如 配置 共享 库 -Djava.librarypath=<> 等 。mapreduce.{fmaplreduce}. 
java.opts 参数 包含 的 标签 @taskid@ 代 表 的 值 是 MapReduce 任务 插入 的 taskid。 

下 面 是 一 个 多 参数 、 多 子 状 态 的 例子 ， 包 括 设置 JVM GC 日志 、 免 密 JVM Agent, i 
过 jconsole 连接 ,可 以 查看 子 任务 内 存 、 线 程 和 获得 线程 栈 信息 。 也 可 是 设 定 map 和 reduce 
任务 的 最 大 堆 大 小 ， 如 512MB 或 者 1024MB。 

«property» 


«name»mapreduce.map.java.opts«/name» 
«value» 
-Xmx512M -Djava.library.path-/home/mycompany/lib 
-verbose:gc -Xloggc:/tmp/6taskid6.gc 
-Dcom.sun.management.jmxremote.authenticate-false 
-Dcom.sun.management.jmxremote.ssl-false 
«/value» 
</property> 
<property> 
«name»mapreduce.reduce.java.opts«/name» 
«value» 
-Xmx1024M -Djava.library.path-/home/mycompany/lib 
-verbose:gc -Xloggc:/tmp/@taskid@ .gc 
-Dcom.sun.management.jmxremote.authenticate-false 
-Dcom.sun.management.jmxremote.ssl-false 
«/value» 
</property> 


© ”内存 管理 。 

用 户 / 管 理 员 可 以 为 进程 、 任 务 指 定 最 大 虚拟 内 存 , 配置 参数 为 mapreduce. {maplreduce}. 
memory.mb。 注 意 ， 该 设置 对 所 有 提交 的 Job 都 有 效 。mapreduce. {maplreduce}.memory.mb 
的 值 是 以 为 MB 为 单位 的 ， 它 的 值 必须 大 于 等 于 通过 命令 传 给 JVM 的 -Xmx 的 值 。 

注意 : mapreduce. {maplreduce} java.opts 只 用 于 配置 MRAppMaster 的 子 任务 。 在 map 
和 reduce 任务 中 ， 通 过 调整 参数 提升 系统 性 能 ， 例 如 调整 操作 的 并 发 性 、 访 问 磁盘 的 频率 ; 
通过 文件 计数 器 监控 job 中 相关 的 map 任务 和 reduce 任务 的 字 节 数 。 

© map 参数 。 

map 中 发 射出 的 数据 都 被 序列 化 为 buffer， 元 数据 也 存储 在 buffer 中 。 序 列 化 缓冲 区 或 
者 元 数据 超出 了 阔 值 时 ， 绥 冲 的 内 容 将 被 存储 到 硬盘 中 ， 而 map 继续 往 缓冲 区 输出 数据 。 
如 果 缓 冲 池 满 ， 而 写 磁 盘 正 在 进行 ， 则 map 线程 被 阻塞 。map 任务 完成 后 ， 所 有 保存 的 记 
录 被 写 进 磁盘 ， 且 所 有 在 磁盘 上 的 片段 合并 成 一 个 单一 的 文件 。 最 小 化 写 磁盘 次 数 可 以 降 
低 map 任务 的 耗 时 ， 同时， 大 的 缓冲 区 也 会 提供 map 的 性 能 。 参 数 设 置 方法 如 表 5-2 所 示 。 


表 5-2 map 参数 的 设置 方法 
































Name Description 
从 map 中 发 射 数据 的 序列 化 缓冲 区 的 大 小 
对 序列 化 缓冲 区 的 限制 ， 一 旦 达到 该 值 ， 线 程 将 


开始 溢 写 操作 ， 即 缓冲 区 的 数据 写 入 到 硬盘 中 





mapreduce.task.io.sort.mb 





mapreduce.map.sort.spill.percent 





数据 
a "从 基础 理论 到 最 佳 实 中 


注意 点 : 当 一 个 记录 比 序列 化 缓冲 区 大 时 ，MR 框架 会 触发 溢 写 盘 操 作 ， 写 成 一 个 独立 
的 文件 。 

© 洗 牌 / 归 约 的 参数 。 

如 前 所 述 , 每 个 reduce 通过 HTTP 获取 maps 的 输出 数据 并 导入 到 内 存 中 , 然后 再 合并 
到 磁盘 中 。 如 果 map 的 输出 启动 了 压缩 ， 那 么 ， 中 间 数 据 是 压缩 的 ，reduce 在 内 存 中 进行 
解压 缩 。 参 数 的 设置 方法 如 表 5-3 所 示 。 


表 5-3 ” 洗 牌 / 归 约 参数 的 设置 方法 





Name Description 

设置 在 磁盘 上 同时 合并 的 数据 块 的 数量 。 它 限制 了 合并 
过 程 中 可 以 打开 文件 的 数据 和 压缩 编码 解码 器 的 数目 。 
如 果 超过 了 该 值 ， 则 合并 操作 分 多 次 处 理 

设置 合并 maps 数 。 在 实践 中 ， 该 值 通常 设置 得 非常 高 
(1000) 或 者 让 该 属性 失效 (0), 因为 在 内 存 中 合并 比 在 硬盘 
中 合并 时 间 成 本 低 。 该 阐 值 只 影响 shuffle 过 程 中 在 内 存 
中 的 合并 频率 

设置 合并 的 内 存 使 用 占 比 。 因 为 map 的 输出 不 能 都 放 在 
内 存 中 ， 该 值 设 置 得 高 ， 可 以 降低 获取 和 合并 的 并 行 度 。 
相反 地 ， 当 该 值 为 1 时 ， 对 reduce 是 高 效 的 ，reduce 的 
输入 都 可 以 放 在 内 存 中 。 该 参数 只 影响 shuffle 过 程 中 在 
内 存 中 合并 的 频 度 

设置 Mapreduce.reduce.java.opts 所 使 用 内 存 的 百分比 。 该 
内 容 用 于 在 shuffle 过 程 中 存储 map 的 输出 。 一 些 内 存 是 
为 MR 框架 预 留 的 ， 一 般 来 说 ， 这 些 内 存 足以 存储 map 
的 输出 

设置 保存 reduce 中 map 输出 的 内 存 使 用 占 比 。reduce 开 





mapreduce.task.io.soft.factor 


mapreduce.reduce.merge.inmem. 
thresholds 


mapreduce.reduce.shuffle.merge. 


percent 


mapreduce.reduce.shuffle.input. 


buffer.percent 


mapreduce.reduce.input.buffer. 





percent 始 后 ,map 输出 将 要 合并 到 硬盘 。 默 认 情况 下 ,在 reduce 
申请 到 最 大 资源 前 ， 所 有 map 的 输出 都 写 入 磁盘 。 对 于 
少数 内 存 密集 型 的 reduce, 该 值 应 增加 ,以 避免 对 磁盘 的 
多 次 访问 
其 他 注意 点 : 


€ 如 果 一 个 map 输出 的 大 小 超过 了 开辟 内 存 的 25%， 这 些 输 出 数据 将 跳 过 存储 在 内 
存 中 的 阶段 ， 直 接 写 入 到 磁盘 。 

€  "Íjcombiner 时 ， 合 并 操作 在 所 有 的 map 输出 前 就 开始 。 当 合并 闵 值 和 缓冲 区 可 
能 不 足 时 ，combine 则 溢出 写 盘 。 在 很 多 情况 下 , 分 配 资源 合并 map 的 输出 比 增加 
缓冲 区 大 小 更 有 效 。 

e EKF HAJ map 的 输出 并 写 到 磁盘 后 ， 再 开始 reduce 处 理 。 
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© ”配置 参数 (Configured Parameters) 。 
对 每 一 个 job 的 配置 属性 如 表 5-4 所 示 。 


表 5-4 ”对 每 一 个 job 的 配置 属性 

















Name Description 
mapreduce.job.id job 的 ID 
mapreduce job.jar JAR 包 的 目录 
mapreduce.job.local.dir job 的 共享 空间 











String 
mapreduce.task.id String 任务 的 id 
mapreduce.task.attempt.id String £45 attempt 的 id 
mapreduce.task.is.map boolean 是 否 是 一 个 map 任务 


job 中 任务 的 id 


mapreduce.map.input.file map 读 取 的 文件 名 


mapreduce.map.input.start PEE map 输入 分 片 的 偏 移 量 


mapreduce.task.partition 


map 输出 分 片 中 的 字 节 总 数 
任务 的 临时 输出 目录 


mapreduce.map.input.length 


mapreduce.task.output.dir 


注意 : 在 streaming job 执行 的 过 程 中 , MapReduce 的 名 称 参数 是 被 转换 的 , 规则 为 “点 ” 
变 成 “下 划 线 ”。 例 如 ，mapreducejob.id 变 成 mapreduce job id，mapreduce.job.jar 变 成 
mapreduce job jar. 

© 任务 日 志 (Task Logs): 

标准 输出 和 错误 输出 流 及 task 的 日 志 在 NM 节点 上 产生 ， 目 录 为 ${HADOOP_LOG_ 
DIR}/userlogs。 

@ 分 发 库 (Distributing Libraries)。 

分 布 式 缓存 可 以 被 用 于 分 发 JAR 包 和 map/reduce 任务 中 要 依赖 的 本 地 库 。Java 虚拟 机 
把 java.library.path 和 LD LIBRARY PATH 加 到 它 的 工作 目录 中 。 因 此 ， 缓 存 库 可 以 通过 
System.loadLibrary 或 System.load 加 载 。 


5.5.6 ”任务 提交 和 监控 (Job Submission and Monitoring) 


job 是 用 户 在 RM 上 编写 程序 的 最 基础 接口 。job 提供 了 多 个 模块 ， 分 别提 交 应 用 、 跟 
踪 进 度 、 访 问 tasks 组 件 报告 和 日 志 ， 获 得 RM 的 状态 信息 等 。 

job 提交 的 过 程 如 下 。 检 查 job 的 输入 和 输出 路 径 ， 计算 job 的 输入 分 片 ， 如 果 需 要 的 
话 ， 计 算 DistributedCache 所 需要 的 账号 信息 ; 复制 job 的 JAR 和 配置 信息 到 HDFS 文件 系 
统 目 录 中 ; 提交 任务 到 RM 并 监控 它 的 状态 。 

job 历史 文件 被 写 到 用 户 指定 的 目录 中 : mapreduce.jobhistory.intermediate-done-dir 和 
mapreduce.jobhistory.done-dir， 该 属性 默认 为 job 的 输出 路 径 。 在 指定 目录 执行 下 面 的 命令 ， 
用 户 可 以 查看 历史 日 志 的 摘要 信息 : mapred job -history output.jhist。 该 命令 将 输出 job 的 详 








E TES 
Fe 


Alf. RIKA kil 提示 信息 。 关 于 job 的 更 多 的 信息 ， 例 如 成 功 任务 和 任务 attempt， 可 以 
通过 下 面 的 命令 进行 查看 : $ mapred job -history all output jhist. 

(1) job 控制 。 

用 户 可 能 需要 串联 多 个 MR 任务 来 合作 完成 负责 的 业务 逻辑 ， 这 些 逻 辑 不 能 通过 一 个 
MR 实现 。 这 是 非常 简单 的 ， 因 为 上 一 个 job 的 输出 写 入 分 布 式 文件 系统 ， 接 着 作为 下 一 个 
job 的 输入 数据 。 当 然 ， 这 需要 确认 上 一 个 job 是 否 完成 (成 功 /失败 )。 在 这 种 情况 下 ， 各 种 
任务 控制 选项 有 : 

€  Jobsubmit): 提交 job 到 集群 ， 并 马上 返回 。 

€  JobwaitForCompletion(boolean): 提交 job 到 集群 ， 并 等 待 job 完成 。 

Q) job 的 输入 。 

InputFormat 描述 了 MR job 的 输入 。 

MR 框架 关于 InputFormat 的 描述 是 : 验证 job 的 input 信息 , 划分 输入 数据 为 多 个 分 片 ， 
每 个 分 片 都 将 分 配 独立 执行 的 Mapper 任务 。 提 供 RecordReader 的 实现 ， 用 于 收集 Mapper 
的 InputSplit 数据 。 

输入 分 片 (InputSplit) 提 供 每 个 独立 Mapper 处 理 的 数据 。InputSplit 是 input 的 一 个 面向 
字 节 的 视图 ， 它 可 以 被 RecordReader 对 象 转化 为 面向 记录 的 视图 。FileSplit 是 默认 的 
InputSplit，Mapreduce.map.input.file 设置 输入 路 径 。 

RecordReader 从 InputSplit 读 取 <key, value> 数 据 对 。RecordReader 将 字 节 视图 转换 为 记 
录 视 图 。 

(3) job 的 输出 。 

OutputFormat 描述 MR 应 用 的 输出 格式 。 其 职责 包括 : 

e ”检查 job 的 输出 ， 例 如 检查 output 目录 是 否 已 经 存在 。 

e ”提供 对 job 的 输出 的 RecordWriter， 作 为 写 者 。 输 出 文件 被 存储 在 文件 系统 中 。 

TextOutputFormat 是 默认 的 OutputFormat。OutputCommitter 是 一 个 MR job 输出 的 委托 。 

MR 框架 依靠 OutputCommitter， 以 实现 下 列 目的 。 

© ”初始 化 阶段 建立 job。 例 如 ， 在 job 的 初始 化 阶段 ， 创 建 临时 输出 目录 。 任 务 处 于 
PREP 阶段 时 ，job 的 建立 是 由 一 个 独立 的 任务 来 完成 的 ， 一 旦 这 个 setup 任务 完成 后 ，job 
将 被 移 到 RUNNING 阶段 。 

Q) job 完成 后 的 清理 工作 。 例如 在 job 完成 后 ,删除 链 式 的 输入 目录 。 job 的 清理 工作 
是 在 job 完成 后 ， 由 一 个 独立 的 任务 完成 的 。 在 job 清除 工作 完成 后 ，job 的 状态 将 变 为 
SUCCEDED/FAILED/KILLED. 

© 创建 任务 的 临时 输入 。 

© 检查 job 是 否 需要 提交 ， 避 免 提 交 不 需要 提交 的 job. 

€ ”提交 任务 的 输出 。 一 旦 任务 完成 后 ， 如 果 需 要 ， 任 务 将 提交 它 的 输出 。 如 果 任 务 
失败 或 者 被 killed， 那 么 ， 输 出 将 被 清理 。 如 果 清 理 不 能 执行 ， 一 个 独立 的 任务 将 被 启动 ， 
该 任务 具有 相同 的 attempt-id， 专 门 做 清理 工作 。 

FileOutputCommitter 是 默认 的 OutputCommitter。job 在 NM 上 创建 /清理 map 或 reduce 
的 容器 。job 清理 、task 清理 任务 和 Job 创建 任务 具有 高 优先 级 。 
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5.5.7 ”任务 的 辅助 文件 (Task Side-Effect Files) 


应 用 中 , 组 件 任务 需要 创建 或 写 数据 到 辅助 文件 中 ,辅助 文件 是 与 job 数据 文件 不 同 的 
文件 。 在 有 些 情 况 下 ， 当 同时 运行 两 个 Mapper 或 者 Reducer 实例 时 ， 就 可 能 遇 到 辅助 文件 
冲突 ， 比 如 两 个 实例 同时 打开 并 写 相同 的 文件 。 

application-writer 可 以 根据 作业 需要 ， 在 ${mapreduce.task.output.dir} 中 创建 辅助 文件 ， 
这 个 目录 可 以 通过 FileOutputFormat.getWorkOutputPath(Conext) 来 获取 。 

注意 : 在 MR 框架 中 ，task 任务 的 ${mapreduce.task.output.dir} 值 会 变 成 ${mapreduce. 
output.fileoutputformat.outputdir}/_temporary/_{$taskid}。 利 用 此 属性 ， 任 何 一 个 任务 可 以 通 
过 FileOutputFormat.getWorkOutputPath(Conext) 来 获取 辅助 文件 路 径 ， 并 创建 、 写 入 数据 。 
对 于 Reducer 是 空 的 任务 ，map 的 输出 直接 写 到 HDFS 中 。 


5.5.8 提交 作业 到 队列 


用 户 提交 的 任务 都 会 分 配 到 队列 中 ,队列 作为 job 的 收集 者 , 为 运行 MR 框架 提供 特殊 
的 功能 。 例 如 ， 使 用 ACLs 来 控制 用 户 提交 的 job 到 哪个 队列 。Hadoop 运行 后 会 有 一 个 默 
认 的 队列 ， 称 为 default。 队 列 的 名 称 通 过 mapreduce.job.queuename 属性 进行 设置 。 应 用 调 
度 器 的 容量 调度 器 支持 多 个 队列 。 

一 个 job 需要 指定 要 提交 到 哪个 队列 ， 通 过 mapreduce.job.queuename 属性 ， 或 者 通过 
APELonfiguration.set(MRJobConfig.QUEUE NAME, String) 来 设置 队列 名 。 如 果 一 个 job 提交 
时 没有 指定 队列 ， 那 么 ， 默 认 提交 到 default 队列 中 。 


5.5.9 MR 中 的 计数 器 (Counters) 


Counters 接口 提供 了 全 局 计数 器 , 在 MR 框架 和 应 用 中 被 定义 使 用 。 应 用 可 以 通过 map 
和 reduce 方法 中 的 Counters.incrCounter(Enum, long) 或 者 Counters.incrCounter(String, String, 
long) 更 新 计数 器 的 数据 。 这 些 计数 器 被 MR 框架 全 局 统计 。 


5.5.10 Profiling 


程序 概要 分 析 是 一 个 获取 内 置 Java 框架 的 应 用 程序 。 用 户 可 以 指定 系统 是 否 为 job 中 
的 task 收集 轮廓 信息 ， 该 功能 通过 mapreduce.task profile 属性 设置 。 该 值 也 可 以 通过 API 
来 设置 Configuration.set(MRJobConfig.TASK PROFILE, boolean)。 如 果 设 置 为 tue， 那 么 任 
务 的 轮廓 信息 可 用 ， 反 之 不 可 用 。job 的 轮廓 信息 存储 在 用 户 的 日 志 目 录 中 ， 默 认 情况 下 ， 
job 的 程序 概要 功能 是 关闭 的 。 

当 用 户 需 要 进行 程序 概要 分 析 时 ， 可 以 通过 配置 mapreduce.task profile. (maps|reduces) 
属性 来 设置 程序 概要 分 析 的 作用 范围 。 该 值 也 可 以 通过 API 设置 : Configuration.set 
(MRJobConfig. NUM (MAP[REDUCE) PROFILES, String). 默认 情况 下 , 指定 的 范围 是 0-2. 
用 户 也 可 以 指定 配置 文件 轮廓 参数 ， 设 置 配置 文件 的 属性 mapreduce.task.profile.params。 该 
值 也 可 以 通过 API 来 设置 : Configuration.set(MRJobConfig.TASK_ PROFILE PARAMS, 
String)。 如 果 字 符 串 包括 %s， 它 将 会 被 task 的 输出 文件 名 代 蔡 ， 该 参数 以 命令 行 的 模式 传 











d 从 基础 理论 到 最 佳 实践 


递 给 子 JVM. Profile [f] A iA f& J&-agentlib:hprof-cpu-samples,heap-sites,force-n,thread—y, 
verbose-n.file-96s . 


5.5.11 Debugging 


MR 框架 提供 了 脚本 调试 工具 。 当 一 个 MR 任务 失败 时 ， 用户 可 以 运行 debug 脚本 , 来 
处 理 task 日 志 。Script 可 以 访问 stdout、stderr 输出 、 系 统 日 志 、job 配置 。stdout 和 stderr 
的 输出 在 控制 台 ， 输 出 即 可 作为 诊断 信息 ， 这 也 是 job UI 的 一 部 分 。 

下 面 的 部 分 , 我 们 将 介绍 如 何 提交 一 个 job 的 debug 脚本 。 脚 本 文件 需要 分 布 式 并 且 提 
交 给 MR 计算 框架 。 

如 何 提 交 debug 脚本 ? 一 种 比较 常用 提交 debug 脚本 的 方式 是 设置 属性 mapreduce. 
map.debug.script 和 mapreduce.reduce.debug.script， 对 map 和 reduce 任务 独立 调试 。 该 属性 
也 可 以 通过 API 来 设置 : Configuration.set(MRJobConfig MAP DEBUG SCRIPT，String) 和 
Configuration.set(MRJobConfig REDUCE DEBUG SCRIPT, String)。 在 流 模 式 中 ，debug script 可 
以 通过 命令 行 选项 -mapdebug 和 -reducedebug 来 设置 ， 对 map 和 reduce 任务 分 别 进行 调试 。 

debug 脚本 的 参数 是 任务 的 stdout, stderrr, syslog 和 jobconf。debug 命令 是 : 

$script $stdout $stderr $syslog $jobconf 














5.5.12 job Outputs 


作业 可 以 通过 FileOutputFormat.setCompressOutput(Job，boolean) 来 控制 job 输出 的 压缩 
器 ， 通 过 FileOutputFormat.setOutputCompressorClass(Job, Class) 指 定 输出 的 解压 器 。 

WR job 的 输出 以 SequenceFileOutputFormat 的 形式 存储 ， 压 缩 器 选择 SequenceFile. 
CompressionType( 例 如 RECORD/BLOCK， 默 认为 RECORD). 


5.5.13 ”忽略 坏 记 录 (Skipping Bad Records) 


Hadoop 提供 忽略 坏 记 录 、 大 小 写 选 项 功能 , 可 以 通过 SkipBadRecords 类 对 map 的 输入 
进行 坏 记 录 和 忽略 、 大 小 写 设 置 。 该 属性 在 map 宕 机 时 非常 有 用 。 往 往 是 因为 map 函数 中 的 
程序 bug 导致 。 对 于 程序 bug， 用 户 必须 修复 。 但 有 的 情形 下 ， 可 能 需要 忽略 这 些 错 误 的 数 
据 。bug 可 能 是 第 三 方 库 中 的 (例如 ， 没 有 源 代码 )。 在 这 种 情况 下 ， 有 些 任 务 是 永远 无 法 成 
功 完成 的 ， 进 而 导致 job 失败 。 通 过 该 属性 ， 丢 失 一 小 部 分 坏 数据 ， 从 业务 的 角度 讲 ， 对 于 
某 些 应 用 来 说 ， 是 可 以 接受 的 。 默 认 情况 下 ， 该 属性 是 关闭 的 。 可 以 通过 SkipBadRecords. 
setMapperMaxSkipRecords(Configuration, long) 和 SkipBadRecords.setReducerMaxSkipGroups 
(Configuration, long) 打 开 。 通 过 该 属性 ， 在 map 失败 几 次 后 ，MR 计算 框架 进入 忽略 模式 。 
job 的 计数 器 记录 了 忽略 的 坏 记 录 的 个 数 。 

增加 忽略 大 小 写 参数 -Dwordcount.case.sensitive: 


$ bin/hadoop jar wc.jar WordCount2 -Dwordcount.case.sensitive=false 
/user/joe/wordcount/input /user/joe/wordcount/output -skip 
/user/joe/wordcount/patterns.txt 


输出 结果 为 : 
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$ bin/hadoop fs -cat /user/joe/wordcount/output/part-r-00000 
bye 1 

goodbye 1 

hadoop 2 

hello 2 

horld 2 


5.6 MapReduce 的 命令 行 


MapReduce 可 以 通过 命令 行 的 形式 进行 任务 调度 与 管理 ， 本 节 将 介绍 这 些 命令 的 具体 
使 用 。 


5.6.1 概述 


所 有 的 MapReduce 命令 都 通过 bin/mapred 脚本 调用 ,运行 不 带 参 数 的 mapred 脚本 可 打 
印 所 有 命令 的 描述 : 


Usage: mapred [--config confdir] [--loglevel loglevel] COMMAND 
where COMMAND is one of: 


pipes run a Pipes job 

job manipulate MapReduce jobs 

queue get information regarding JobQueues 

classpath prints the class path needed for running 
mapreduce subcommands 

historyserver run job history servers as a standalone daemon 


distcp «srcurl» «desturl» copy file or directories recursively 
archive -archiveName NAME -p«parent path»«src»*«dest» 

create a hadoop archive 
hsadmin job history server admin interface 


命令 选项 如 表 5-5 所 示 。 
表 5-5 mapred 的 命令 选项 


COMMAND_OPTIONS Description 
Shell 选项 通用 集合 
支持 的 命令 选项 集 


带 参数 的 命令 


SHELL OPTIONS 


GENERIC OPTIONS 





COMMAND COMMAND OPTIONS 


Hadoop 有 一 套用 户 命令 集 ， 与 运行 类 时 的 选项 相似 ， 下 面 将 进行 介绍 。 





5.6.2 用户 命令 (User Commands) 


(1) archive: 创建 Hadoop 档案 。 

用 法 : hadoop archive -archiveName name -p <parent>[-r<replication factor>]<src>*<dest> 
(2) classpath: 设置 Hadoop JAR 和 需要 依赖 的 其 他 库 。 

用 法 : mapred classpath 

(3) Distcp: 递归 地 复制 文件 或 目录 。 





e CEU, capies tc 
E 

用 法 : hadoop distcp hdfs://nn1:8020/foo/bar \ 

(4) job: 5 MapReduce job 进行 交换 的 命令 。 

用 法 : mapred job | [GENERIC OPTIONS] | [-submit <job-file>] | [-status <job-id>] | 
[-counter <job-id> -«group-name- -counter-name^] | [-kill <job-id>] | [-events <job-id> 
<from-event-#> <#-of-events>] | [-history [all] <jobOutputDir>] | [-list [all]] | [-kill-task <task-id>] 
| [-fail-task <task-id>] | [-set-priority <job-id> <priority>] 

命令 选项 如 表 5-6 所 示 。 


表 5-6 job 的 命令 选项 








COMMAND_OPTION Description 
-Submit job-file 提交 job 
-status job-id 打印 map 和 reduce 完成 的 百分比 、 所 有 job 的 计数 器 





-counter job-id group-name 打印 计数 器 的 值 


counter-name 


-kill job-id kill 指定 的 job 

-history [all]jobOutputDir 打印 job 的 详细 信息 ， 失 败 、 被 kill 的 详细 信息 

-list [all] 显示 尚未 完成 的 jobs，-list all 显示 所 有 的 jobs 

-kill-task task-id kill 一 个 task 任务 

-fail-task task-id 使 指定 的 task 任务 失败 ， 失 败 的 任务 计 入 失败 尝试 测试 

-set-priority job-id priority 修改 job 的 优先 级 , 可 选择 的 优先 级 有 :VERY_HIGH、HIGH、NORMAL、 





LOW. VERY LOW 





(5) pipes: 管道 。 

用 法 : mapred pipes [-conf <path>] [-jobconf <key=value>, <key=value>, ...] [-input <path>] 
[-output <path>] [-jar <jar file>] [-inputformat <class>] [-map <class>] [-partitioner <class>] 
[-reduce <class>] [-writer <class>] [-program <executable>] [-reduces <num>] 

命令 选项 如 表 5-7 所 示 。 


表 5-7 pipes 的 命令 选项 














COMMAND_OPTION Description 
-conf path 指定 job 的 配置 文件 
-jobconf key=value, key-value, ... 增加 或 者 覆盖 job 的 配置 文件 
-input path 输入 目录 
-output path 输出 目录 
-jarjar file JAR 包 名 





-inputformat class InputFormat 类 


Q«-— —— —————— P —— 





COMMAND OPTION 


Description 


$8533 MapReduce 





-map class 


Java map 类 





-partitioner class 


Java Partitioner 类 





-reduce class 
-writer class 


-program executable 


Java Reduce 类 
Java RecordWriter 类 


执行 URI 





-reduces num 





Reducer 并 行 数 


(6) version: 打印 MapReduce 的 版 本 。 


用 法 : mapred version. 


5.6.3 ”管理 员 命令 (Administration Commands) 


(1) historyserver: 启动 JobHistoryServer。 


用 法 : mapred historyserver 


(2) hsadmin: 运行 MapReduce hsadmin 客户 端 ， 来 执行 JobHistoryServer 的 管理 命令 。 

用 法 : mapred hsadmin [-refreshUserToGroupsMappings] | [-refreshSuperUserGroups- 
Configuration] | [-refreshAdminAcls] | [-refreshLoadedJobCache] | [-refreshLogRetentionSettings] 
| [-refreshJobRetentionSettings] | [-getGroups [username]] | [-help [cmd]] 


命令 选项 如 表 5-8 所 示 。 


表 5-8 hsadmin 的 命令 选项 











COMMAND_OPTION Description 
-refreshUserToGroupsMappings 更 新 user-to-groups 的 映射 
-refreshSuperUserGroupsConfiguration 更 新 超级 代理 组 的 映射 
-refreshAdminAcls 更 新 对 历史 job 服务 的 管理 员 的 访问 控制 列表 
-refreshLoadedJobCache 更 新 job 历史 服务 的 缓冲 区 


-refreshJobRetentionSettings 


更 新 job 历史 数据 的 过 期 时 间 、 清 理 周 期 





-refreshLogRetentionSettings 


更 新 日 志保 留 时 长 和 日 志保 留 检查 周期 





-getGroups [username] 


获取 用 户 所 属 的 群 组 





-help [cmd] 


获取 指定 命令 的 帮助 说 明 





执行 命令 sbin/mr-jobhistory-daemon.sh start historyserver: 


[hadoop&hadoop-nn hadoop] $ sbin/mr-jobhistory-daemon.sh start historyserver 
starting historyserver, logging to 
/usr/local/hadoop/hadoop-2.7.2/10gs/mapred-hadoop-historyserver-hadoop 


-nn.out 


o 


eq 从 基础 理论 到 最 佳 实 中 


=9 


5.6.4 YARN-MapReduce 的 部 署 


YARN 配置 文件 修改 : vim yarn-site xml。 


<configuration> 

<!-- Site specific YARN configuration properties --» 

«property» 
«name»yarn.nodemanager.aux-services«/name» 
«value»mapreduce shuffle«/value» 

</property> 

<property> 
«name»yarn.nodemanager.auxservices.mapreduce.shuffle.class«/name» 
«value»org.apache.hadoop.mapred.ShuffleHandler«/value» 

</property> 

<property> 
<name>yarn.resourcemanager .address</name> 
<value>hadoop-rm:8032</value> 

</property> 

<property> 
«name»yarn.resourcemanager.scheduler.address«/name» 
«value»hadoop-rm:8030«/value» 

</property> 

<property> 
<name>yarn.resourcemanager .resource-tracker .address</name> 
<value>hadoop-rm:8031</value> 

</property> 

<property> 
<name>yarn.resourcemanager .admin .address</name> 
<value>hadoop-rm:8033</value> 

</property> 

<property> 
«name»yarn.resourcemanager.webapp.address«/name» 
«value»hadoop-rm:8088«/value» 

</property> 

</configuration> 


修改 yarn-env.sh 中 的 JAVA HOME, vim hadoop-env.sh。 


# The java implementation to use. 

fexport JAVA HOME-$(JAVA HOME] 

export 

JAVA HOME-"/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.71-2.b15.e17 2.x86 64" 


MapReduce 配置 文件 修改 : vim mapred-site.xml. 


<configuration> 
<property> 
<name>mapreduce.framework.name</name> 
<value>yarn</value> 
</property> 
<property> 
<name>mapreduce.jobhistory.address</name> 
<value>hadoop-nn:10020</value> 
</property> 
<property> 
<name>mapreduce.jobhistory.webapp.address</name> 
<value>hadoop-nn:19888</value> 
</property> 
</configuration> 
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启动 分 布 式 系 统 (YARN)。 
启动 YARN， 在 /home/hadoop/hadoop 下 执行 : 


[hadoop@hadoop-nn hadoop]$ sbin/start-yarn.sh 

starting yarn daemons 

starting resourcemanager, logging to 
/usr/local/hadoop/hadoop-2.7.2/10gs/yarn-hadoop-resourcemanager-hadoop 
-nn.out 

hadoop-nn: starting nodemanager, logging to 
/usr/local/hadoop/hadoop-2.7.2/10gs/yarn-hadoop-nodemanager-hadoop 
-nn.out 

[hadoopGhadoop-nn hadoop]$ jps 

1568 SecondaryNameNode 

1360 DataNode 

3504 ResourceManager 

3621 NodeManager 

3932 Jps 

1246 NameNode 

2495 JobHistoryServer 


5.7 WordCount 的 实现 


WordCount 是 Hadoop 的 例子 中 的 代码 ， 比 较 简单 ， 是 学 习 MapReduce 编程 的 经 典 案 
例 ， 主 要 分 为 job 设置 、Map 过 程 、Combine 过 程 、Reduce 过 程 ， 并 且 Combine 与 Reduce 
实例 化 相同 的 Reducer 对 象 。 

下 面 先 看 下 WordCount 类 : 


public class WordCount { 


public static class TokenizerMapper 
extends Mapper«Object, Text, Text, IntWritable» ( 
private final static IntWritable one = new IntWritable(1); 
private Text word - new Text(); 


public void map(Object key, Text value, Context context) 
throws IOException, InterruptedException ( 
StringTokenizer itr = new StringTokenizer (value.toString()); 
while (itr.hasMoreTokens()) ( 
word.set(itr.nextToken()); 
context.write(word, one); 


H 

} 

public static class IntSumReducer 

extends Reducer«Text,IntWritable,Text,IntWritable» { 
private IntWritable result = new IntWritable(); 


public void reduce (Text key, Iterable<IntWritable> values, 
Context context) throws IOException, InterruptedException { 
int sum = 0; 
for (IntWritable val : values) { 
sum += val.get(); 
} 
result.set (sum); 
context.write(key, result); 


es 从 基础 理论 到 最 佳 实践 


} 
public static void main(String[] args) throws Exception { 
Configuration conf - new Configuration(); 
String[] otherArgs - 
new GenericOptionsParser(conf, args).getRemainingArgs () 7 
if (otherArgs.length !- 2) ( 
System.err.println("Usage: wordcount «in» «out»"); 
System.exit (2); 
} 
Job job = new Job(conf, "word count"); 
job.setJarByClass (WordCount.class); 
job.setMappercClass (TokenizerMapper.class); 
job.setCombinerClass (IntSumReducer.class); 
job.setReducerClass (IntsumReducer.class); 
job.setoutputKeyClass (Text.class); 
job.setOutputValueClass (IntWritable.class); 
FileInputFormat.addInputPath (job, new Path(otherArgs[0])); 
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); 
System.exit(job.waitForCompletion(true)? 0 : 1); 


) 
主要 实现 Mapper, Reducer 类 ， 它 们 的 继承 关系 为 : 


public static class TokenizerMapper 

extends Mapper«Object, Text, Text, IntWritable»() 
public static class IntSumReducer 

extends Reducer«Text,IntWritable,Text,IntWritable» {} 


其 中 斜体 的 数据 类 型 必须 严格 一 致 ， 否 则 报错 。 
(1) 创建 job: 


Job job = new Job(conf, "word count"); 

job.setJarByClass (WordCount.class); 

job.setMapperClass (TokenizerMapper.class); 
job.setCombinerClass (IntSumReducer.class); 
job.setReducerClass (IntsumReducer.class); 
job.setoutputKeyClass (Text.class); 

job.setoutputValueClass (IntWritable.class); 
FileInputFormat.addInputPath(job, new Path(otherArgs[0])); 
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); 


其 中 的 job 为 任务 实例 ， 是 Mapreduce 任务 的 具体 对 象 。 
setMapperClass: 设置 Mapper 类 名 。 

setCombinerClass: 设置 Cobiner 类 名 ， 可 以 与 Reducer 类 名 相同 。 
setReducerClass: 设置 Reducer 类 名 。 

setOutputKeyClass: 设置 输出 key 的 数据 类 型 。 
setOutputValueClass: 设置 输出 value 的 数据 类 型 。 
FileInputFormat.addInputPath: 设置 MapReduce 任务 的 输入 路 径 。 
FileOutputFormat.setOutputPath: 设置 MapReduce 任务 的 输出 路 径 。 


(2) map 函数 : 


public void map (Object key, Text value, Context context) 
throws IOException, InterruptedException ( 
StringTokenizer itr = new StringTokenizer (value.toString()); 
while (itr.hasMoreTokens()) ( 
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word.set(itr.nextToken()); 
context.write(word, one); 
n 


参数 说 明 :Object key 是 输入 的 key, 一 般 由 Mapper 自动 生成 ; Text value 是 输入 的 value, 
通常 指 具 体 的 行内 容 。Context context 是 上 下 文 变量 ， 传 递 从 map 到 reduce 的 key, value. 

WoudCount 的 map 函数 逻辑 : 首先 对 行 数据 进行 分 词 ， 以 空格 作为 分 词 标签 ， 将 每 个 
词 构建 成 最 简单 的 键 值 对 (word，1)， 并 将 该 值 传递 给 reduce 函数 。 

(3) reduce 函数 : 


public void reduce (Text key, Iterable«IntWritable» values, 
Context context) throws IOException, InterruptedException ( 
int sum = 0; 
for (IntWritable val : values) ( 
sum += val.get(); 
} 
result.set (sum); 
context.write(key, result); 
) 


参数 说 明 : Text key 是 reduce 的 key， 从 combine 传递 过 来 ， 即 各 个 word: Iterable 
<IntWritable> values 是 value 列表 ， 表 示 从 各 个 combine 归 约 来 的 对 应 该 key 的 value 值 集 
合 ， 其 形式 为 (word，m) 其 中 nZl. Context context 表示 上 下 文 变量 ， 指 定 输出 到 输出 目录 


的 key-value 值 。 
WoudCount 的 reduce 函数 逻辑 : 根据 word 进行 value 的 累加 ， 然 后 将 word 和 计算 后 
的 sum 作为 输出 。 
上 传 要 处 理 的 文件 : 将 Hadoop 所 有 的 配置 文件 放 到 /home/hadoop/wordcount/input 中 。 
在 HDFS 中 创建 目录 : 


hdfs dfs -mkdir /home 

hdfs dfs -mkdir /home/hadoop 

hdfs dfs -mkdir /home/hadoop/wordcount 

hdfs dfs -mkdir /home/hadoope/wordcount/input 

hdfs dfs -put /usr/local/hadoop/hadoop/etc/hadoop/* 
/user/hadoop/wordcount/input/ 


查看 是 否 上 传 成 功 : 


hdfs dfs -ls /home/yourname/wordcount/input 
执行 方法 及 输出 信息 : 


[hadoopehadoop-nn hadoop]$ yarn jar 
Share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount 
/user/hadoop/wordcount/input/* /user/hadoop/wordcount/output01 
16/04/09 17:14:53 INFO client.RMProxy: Connecting to ResourceManager at 
hadoop-rm/10.172.89.217:8032 

16/04/09 17:14:54 INFO input.FileInputFormat: 

Total input paths to process:30 

16/04/09 17:14:54 INFO mapreduce.JobSubmitter: number of splits:30 
16/04/09 17:14:55 INFO mapreduce.JobSubmitter: Submitting tokens for job: 
job 1460192892083 0002 

16/04/09 17:14:55 INFO impl.YarnClientImpl: Submitted application 
application 1460192892083 0002 

16/04/09 17:14:55 INFO mapreduce.Job: The url to track the job: 
http://hadoop-rm:8088/proxy/application 1460192892083 0002/ 


Y TS E 


16/04/09 17:14:55 INFO mapreduce.Job: Running job: job 1460192892083 0002 
16/04/09 17:15:10 INFO mapreduce.Job: Job job 1460192892083 0002 running in 
uber mode : false a 加 
16/04/09 17:15:10 INFO mapreduce.Job: map 0$ reduce 0$ 
16/04/09 17:15:43 INFO mapreduce.Job: map 20$ reduce 0$ 
16/04/09 17:16:16 INFO mapreduce.Job: map 40$ reduce 0$ 
16/04/09 17:16:44 INFO mapreduce.Job: map 40$ reduce 13$ 
16/04/09 17:16:48 INFO mapreduce.Job: map 57$ reduce 13$ 
16/04/09 17:16:52 INFO mapreduce.Job: map 57$ reduce 19$ 
16/04/09 17:17:16 INFO mapreduce.Job: map 73$ reduce 23$ 
16/04/09 17:17:20 INFO mapreduce.Job: map 73$ reduce 24$ 
16/04/09 17:17:42 INFO mapreduce.Job: map 90$ reduce 24$ 
16/04/09 17:17:44 INFO mapreduce.Job: map 90$ reduce 30$ 
16/04/09 17:17:58 INFO mapreduce.Job: map 100$ reduce 30$ 
16/04/09 17:18:00 INFO mapreduce.Job: map 100$ reduce 100$ 
16/04/09 17:18:01 INFO mapreduce.Job: Job job 1460192892083 0002 completed 
successfully T i 
16/04/09 17:18:01 INFO mapreduce.Job: Counters: 50 

File System Counters 

FILE: Number of bytes read-76956 

FILE: Number of bytes written-3799310 

FILE: Number of read operations-0 

FILE: Number of large read operations-0 

FILE: Number of write operations-0 

HDFS: Number of bytes read-83914 

HDFS: Number of bytes written-37652 

HDFS: Number of read operations-93 

HDFS: Number of large read operations-0 

HDFS: Number of write operations-2 

Job Counters 

Killed map tasks-1 

Launched map tasks-31 

Launched reduce tasks-1 

Data-local map tasks-31 

Total time spent by all maps in occupied slots (ms)-828078 
Total time spent by all reduces in occupied slots (ms)-102418 
Total time spent by all map tasks (ms)-828078 

Total time spent by all reduce tasks (ms)-102418 

Total vcore-milliseconds taken by all map tasks-828078 
Total vcore-milliseconds taken by all reduce tasks-102418 
Total megabyte-milliseconds taken by all map tasks-847951872 
Total megabyte-milliseconds taken by all reduce tasks-104876032 
Map-Reduce Framework 

Map input records-2168 

Map output records-8074 

Map output bytes-108479 

Map output materialized bytes-77130 

Input split bytes-3954 

Combine input records-8074 

Combine output records-4064 

Reduce input groups-1600 

Reduce shuffle bytes-77130 

Reduce input records-4064 

Reduce output records-1600 

Spilled Records-8128 

Shuffled Maps -30 

Failed Shuffles-0 

Merged Map outputs-30 

GC time elapsed (ms)-18827 

CPU time spent (ms)-18640 

Physical memory (bytes) snapshot-6996582400 
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Virtual memory (bytes) snapshot-64411631616 
Total committed heap usage (bytes)-5451743232 
Shuffle Errors 

BAD ID=0 

CONNECTION-0 

IO ERROR-0 

WRONG LENGTH-0 

WRONG MAP=0 

WRONG REDUCE-0 

File Input Format Counters 

Bytes Read-79960 

File Output Format Counters 

Bytes Written-37652 


其 中 : 
Map input records=2168 表示 输入 路 径 中 的 文件 的 行 数 ， 检 查 方法 : 


[hadoop@hadoop-nn hadoop]$ hdfs dfs -cat /user/hadoop/wordcount/input/* 
Iwc -1 
2168 


Map output records-8074 表示 输出 的 文件 中 的 函数 ,此 为 中 间 值 ,该 值 与 combine [1] input 
值 理论 上 相等 。 

Combine input records=8074 表示 map 后 的 行 数 ， 此 为 中 间 值 。 

Combine output records-4064 表示 combine 输出 的 行 数 ， 此 为 中 间 值 ， 输 出 到 reduce [fr 
段 ， 该 值 理论 上 与 reduce 的 input 数值 相等 。 

Reduce input records=4064 表示 reduce 的 输入 行 数 。 

Reduce output records=1600 表示 归 约 后 的 行 数 ， 也 是 写 到 输出 文件 的 行 数 ， 检 查 方法 : 


[hadoop@hadoop-nn hadoop]$ hdfs dfs -cat /user/hadoop/wordcount/output01/* 
|wc -1 
1600 


输出 结果 片段 : 


[hadoop@hadoop-nn hadoop]$ hdfs dfs -cat 
/user/hadoop/wordcount/output0l/part-r-00000 | more 


!= 3 

"n 6 

"^24 

"SHADOOP CLASSPATH" 1 
"SJAVA HOME" 2 

"SYARN HEAPSIZE" 1 


"$YARN LOGFILE" 1 
"SYARN LOG DIR" 1 


"SYARN POLICYFILE" 1 
"xm ^18 

"AS 25 

"Error: 1 

"License"); 25 
"alice,bob 18 
"console" 1 

"dfs" 3 
"hadoop.root.logger". 1 
"jks". 4 

"jvm" 3 

"mapred" 3 
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增加 忽略 大 小 写 参 数 -Dwordcount.case.sensitive: 


[hadoopehadoop-nn hadoop]$ yarn jar 
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount 
-Dwordcount.case.sensitive-false /user/hadoop/wordcount/input/* 
/user/hadoop/wordcount/output02 


该 任务 可 以 通过 WebUI 来 查看 ， 默 认 网 址 为 : 
http://{yarn-host}:8088 


页 面 截图 如 图 5-1 所 示 。 
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图 5-1 MapReduce 任务 的 效果 
调度 器 截图 如 图 5-2 所 示 。 
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^ E did 005 ur 





"deut Queue Status 
Queue State: RUNNING 
Used Capacity: 0.0% 
Absolute Used Capacity: 0.0% 
Absolute Capacity: 100.0% 
Absolute Max Capacity: 100.0% 
Used Resources: <memory:0, vCores:0> 
Num Schedulable Applications: 0 
Num Non-Schedulable Applications: 0 
Num Containers: 0 
Max Applications: 10000 
Max Applications Per User: 10000 
<memory:1024, vCores:1> 
t <memory:0, vCores:0> 
Max Application Master Resources Per User: -memory:1024, vCores:1> 
Configured Capacity: 100.0% 
Configured Max Capacity: 100.0% 
Configured "minimum user Limit Percent: 100% 
Configured User Limit Factor: 15 
Accessible Node Labels: ~ 
Preemption: disabied 











图 5-2 调度 器 的 效果 


查看 该 任务 的 日 志 ， 则 需要 开启 jobhistory 服务 ， 做 内 外 网 IP 端口 映射 ， 并 且 在 本 地 
配置 hosts。 
启动 服务 : 


[hadoopehadoop-nn hadoop] $ sbin/mr-jobhistory-daemon.sh start historyserver 
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通常 集群 搭建 设置 的 是 内 容 ， 如 果 要 外 网 访问 Web 服务 ， 就 需要 进行 内 网 、 外 网 的 
防火 墙 映射 : 


iptables -A PREROUTING -t nat -p tcp --dport 19888 -j DNAT --to-destination 
10.172.89.xxx:19888 
iptables -A PREROUTING -t nat -p tcp --dport 8088 -j DNAT --to-destination 
10.172.89.xxx:8088 


Hosts 配置 : 
123.56.76.xxx hadoop-rm hadoop-nn (两 者 为 配置 文件 中 的 配置 信息 ) 
日 志 查看 界面 如 图 5-3 所 示 。 
































—" 
{hed MapReduce Job job_1460192892083_0003 
dics Kien 
vum rip 
pem pucri 
Gean Qua dhik 
Tan Sume SUCDEDED 
HoRuni Uberaed: faise 
id Co Sa apr 09 172148 CST 2016 
Sere Sat Ap 17al97CST2018 
Finished So Apr 09 172057 CST 2015 
Ere 
beneaker ! 
TE p Tie. hr 
Average Shuffle Time 1mins, 40sec 
peque 
preteen 
apple aser 
i i Nate iR 
1 Sat Apr 06 17:21:51 CST 2016 hadoop O42. logs 
a za Tangina 
P » » 
Reduce. 1 1 
empt Type Failed ed Successtul 
Maps. 2 1 n 
Reduces. 全 a 1 
5-3 日 志 效 果 
点 击 Map 或 Reduce 进入 详细 task 界面 ， 效 果 如 图 5-4 所 示 。 
RY STOO Map Tasks for job_1460192892083_0003 
+ Application. Show 2 [=jenties Sear 
b Task Successful Attempt. 
E Name E Sme H SanTime =  FnishTime *® — FepredTime 3* SumTme © BnshTme ^ 
 Canfiaurstion. SUCCEEDED Sat Apr 9 17:2200 Sat Apr 9 172231 — 3lcec Sat Apr 9 172200 Sat Apr 9 172251 
p +0800 2015 +0800 2016 +0800 2016 +0800 2016 
ILI succeeocp SatApr 9 172200 SatApr 9 172231 Dec m 
Tode Soon ane Somo mmia tanama Somoza 
task 1460192692053 0003 m 200002 SUCCEEDED Sat Apr 9 17:2200 Sat Apr € 17:2231 31sec Sat Apr 9 17:22:00 Sat Apr 9 17:22:31 
2o ons 109092016 prr 2090 2016. 
tesk 1460192692083 0003 m 000003 SUCCEEDED Sat Apr 9172200 Set Apr 8172231 — 3isec Sat Apr 9 17:2200 Sat Apr 9 17:22:31 
oo Sooo mmie too aie Soso mio 
OO SUCCEEDED Sthpr e172200 Set hpr 92 Xe Sat apr 9 TIDE00 Sat Apr 9 17221 
0082015 ny Vect 2016 Zoos 
task 1460192692083 0003 m 000005 SUCCEEDED Sat Apr917:2200 Set Apr917:2221 — 3lsec Sat Apr 9 17:2200 Sat Apr 9 17:22:21 
Sa ams pede sanma my 
Task 1000162092084 NU mS SUCCEEDED ARAPAIMIMA Sm Apr IMMO aome Sut Ap 9 T2238 Sat Apr 9 172804 
prm anoo 2010 Tec 2010 799092020 
desk 1460192692083 0003 m 000007 SUCCEEDED Sat Apr 9 17:2233 Sat Apr 9172304 — 3e Sat Apr 9 17:2233 Sat Apr 9 17:2304 
a00 2015 prm p Sooo ane 
Tsk 10015209208 0003 MONDA SUCCEEDED Sapr oD Su hr UIMDO Saee Snapea TTA Sat Apr o TEDA 
eno onis 090 2010 Seoc 2o16 9000 2016 
suceeenen Satapr 9 TMDM SetAor SIMA Gum GRAB 9 172234 Sat Apt 9 172304 
sams Soome sonaa Soa aoi 
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5-4 ”任务 的 效果 
选择 一 个 task 进入 ， 细 化 信息 如 图 5-5 所 示 。 


数据 
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Wolo]o) Attempts for task_1460192892083_0004_m_000000 
Show 20 [=]entries 
Attempt B State = Seu 5 Node — legs = — StetTime ê FnishTime ê  Elapse 
attempt 1460192892083 0004 m 000000 0. SUCCEEDED map default logs Sat Apr 9 Sat Apr 9 30sec 
rack/hadoop:8042 18:07:42 +0800 18:08:13 +0800 
2016 2016 


5-5 单 任务 的 效果 
点 击 logs 即 可 查看 本 task 的 stderr stdout 日 志 。 


5.8 小 结 


本 章 介绍 了 MapReduce 的 工作 原理 、 参 数 配置 、YARN 集群 搭建 、MR 作业 提交 等 常 
见 操作 。 读 者 掌握 了 这 些 基本 的 MR 操作、 参数 的 作业 及 优化 等 相关 内 容 ， 便 可 进行 更 高 
难度 的 MR 程序 实现 。 当 然 ，Hadoop 集群 、 工 作 原理 等 理论 知识 对 于 更 高 效 地 使 用 MR 提 
供 了 必要 的 理论 基础 。 


非 关 系 型 数据 库 篇 
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使 用 HBase | 


A BER 


HBase 是 Hadoop 平台 中 重要 的 非 关 系 型 数据 库 ， 它 通过 线性 可 扩展 部 
署 ， 可 以 支撑 PB 级 数据 存储 与 处 理 能 力 。 本 章 将 详细 介绍 HBase 的 基础 组 
成 与 体系 结构 、 安 装配 置 、 操 作 实践 、 优 化 管理 等 。 

本 章 的 目标 是 让 读者 能 够 初步 掌握 HBase 这 一 非 关 系 型 数据 库 平台 ， 
为 未 来 工作 中 进一步 更 好 地 使 用 HBase Xx Xm. 


HBase 的 基本 原理 
HBase 的 组 成 模块 
HBase 的 安装 和 配置 
HBase 的 命令 操作 


es 从 基础 理论 到 最 佳 实践 


6.1 HBase 基础 


HBase 是 一 种 非 关 系 型 数据 库 ,具备 单 张 表 数 百 万 列 、 数 十 亿 行 的 数据 管理 能 力 ， 是 实 
施 大 数据 项 目的 重要 利器 之 一 。 


6.1.1 HBase 是 什么 


HBase 的 作用 ,是 为 大 数据 项 目 提供 一 种 可 伸缩 、 分布 式 、 能 够 通过 廉价 机 器 进行 线性 
扩展 的 数据 库 系统 。 相 较 于 传统 数据 库 的 关系 型 特性 , HBase 是 一 种 基于 列 存储 的 非 关 系 型 
数据 库 ， 这 一 特性 确保 了 HBase 能 够 满足 更 高 并 发 的 实时 读 写 。 

HBase 的 诞生 来 源 于 Google 的 Bigtable: A Distributed Storage System for Structured Data 
论文 ， 在 论文 中 ，Google 设计 了 一 款 名 为 Bigtable 的 数据 库存 储 系统 ， 用 于 解决 它 所 面临 
的 问题 ， 如 何 为 整个 互联 网 用 户 提供 实时 的 搜索 查询 结果 ? 

这 一 问题 可 以 细 分 成 4 个 子 问 题 : 

e ”如 何 存储 抓 取 的 整个 互联 网 页 面 信息 ? 

如 何 快速 地 通过 用 户 关键 词 定位 到 这 些 信息 ? 

e ”如 何 实 时 可 靠 地 响应 数 亿 用 户 的 并 发 请 求 ? 

e 在 提升 用 户 体验 的 同时 ， 如 何 降低 成 本 ? 

通过 细 分 ， 可 以 看 出 ， 这 些 子 问题 其 实 是 所 有 大 数据 服务 公司 在 实际 工作 中 所 面临 的 
共性 问题 。 即 : 如 何 存储 好 自身 不 断 增长 的 海量 数据 ， 如 何 更 快 、 更 可 靠 、 更 节省 、 更 准 
确 地 将 数据 服务 于 用 户 。 

借鉴 Bigtable 的 方法 ，HBase 较 好 地 解决 了 这 一 共性 问题 。 

(1) HBase 可 以 运行 于 Hadoop 的 HDFS 之 上 ,所 有 的 数据 存储 工作 交 由 HDFS 来 完成 ， 
这 确保 了 大 规模 的 数据 存储 以 及 可 扩展 性 。 

(2) HBase 是 面向 列 存储 的 非 关 系 型 数据 库 ， 基 于 <key，value> 的 查询 机 制 ， 能 够 更 快 
地 定位 要 使 用 的 数据 。 

(3) HBase 支持 数 百 个 以 上 节点 的 集群 部 署 , 并 且 在 业务 量 高 发 期 时 , 可 通过 增加 节点 
提高 性 能 ， 能 够 满足 高 并 发 访问 需求 。 

(4) HBase 的 硬件 运行 于 廉价 机 器 ， 软 件 本 身 开源 ， 能 够 极 大 地 节省 实施 成 本 。 

由 于 上 述 特点 ， 自 HBase 问世 之 后 ， 便 获得 了 业内 广泛 的 关注 与 应 用 ， 大 部 分 企业 在 
自己 的 生产 业务 场景 中 直接 部 署 HBase, 部 分 更 有 实力 的 企业 借鉴 于 HBase, 改进 甚至 重 写 ， 
打造 自己 的 面向 云 的 数据 库 系统 ， 满 足 更 苛刻 、 更 个 性 化 的 业务 场景 。 

HBase Ei 2007 年 创立 起 来 ， 经 过 快速 发 展 ， 目 前 已 成 为 Apache 软件 基金 会 下 面 的 顶 
级 项 目 。 正 式 的 称呼 是 Apache HBase。 

HBase 的 Logo 是 一 个 海豚 头像 ， 如 图 6-1 所 示 。 

HBase 官方 网 址 是 http://hbase.apache.org/， 在 官网 上 可 下 载 最 新 使 用 手册 、 最 新 版 本 、 
以 及 源 代码 。 熟 悉 Github 的 读者 ， 也 可 以 通过 git://git.apache.org/hbase.git 链接 下 载 和 使 用 
HBase。 这 里 需要 提醒 的 是 ，Github 上 面 只 是 镜像 。 
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图 6-1 HBase 的 图 标 


1E 2015 年 2 月 HBase 正式 发 布 了 用 于 生产 环境 的 1.0 版 本 , 这 对 HBase 社区 来 说 是 一 
ERKE. 

不 过 , 目前 在 生产 环境 中 使 用 比较 多 的 还 是 HBase 0.94. 0.98 版 本 ,考虑 到 前 面 章节 所 
采用 的 HDFS 的 版 本 ， 为 确保 稳定 性 与 兼容 性 ， 本 书 所 采用 的 HBase 版 本 是 0.98。 

如 果 读 者 想 使 用 更 新 版 本 的 HBase， 表 6-1 给 出 了 所 必需 的 Hadoop 环境 。 
表 6-1 HBase 各 版 本 所 需 的 Hadoop 环境 


HBase 12x 
Hadoop 10x 不 支持 不 支持 
Hadoop 1.1x 不 支持 不 支持 

不 支持 

不 支持 不 支持 

不 支持 不 支持 


支持 未 验证 未 验证 未 验证 





未 验证 未 验证 
" 支持 
T 支持 
Hadoop 2.6.0 不 支持 





Hadoop 2.6.1+ 未 验证 未 验证 
Hadoop 2.7.0 不 支持 不 支持 不 支持 


Hadoop 27.14 未 验证 未 验证 未 验证 


HBase 与 HDFS 的 关系 如 下 。 

(D HBase 并 非 绝 对 依赖 于 Hadoop 才 可 以 使 用 。 

© 在 伪 分 布 式 部 署 的 教学 或 演示 环境 中 ,HBase 可 以 采用 Linux 本 地 文件 系统 ,用 于 
数据 存储 ， 也 同样 能 够 驱动 HBase 的 运行 。 

G 采用 HDFS 运行 HBase， 是 为 了 满足 真正 的 生产 环境 的 业务 需求 所 追求 的 高 稳定 
性 、 可 靠 性 、 扩 展 性 。 
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6.1.2 HBase 伪 分 布 式 部 署 


HBase 与 HDFS 放置 于 同一 台 虚 拟 主机 ， 主 机 名 为 iZ23d4byllaZ， 读 者 在 自行 配置 时 
应 注意 替换 。 本 次 HBase 采用 伪 分 布 式 的 方式 进行 部 署 ， 因 此 和 暂 不 需要 HDFS 等 组 件 。 

(1) HBase 的 下 载 。 

本 书 使 用 的 版 本 是 HBase 0.98.3， 而 HBase 官网 最 新 的 0.98 版 本 是 HBase 0.98.16， 两 
者 属于 同一 版 本 系列 的 不 同 小 版 本 ， 使 用 起 来 并 无 大 的 差异 。 

读者 如 果 采 用 本 书 版 本 , 可 通过 在 本 书 下 载 资源 中 找到 hbase-0.98.3-hadoopl-bin.tar.gz; 
复制 到 相应 的 安装 目录 中 即 可 。 

如 果 要 使 用 最 新 版 本 或 者 其 他 系列 的 HBase 版 本 ， 可 以 通过 以 下 网 址 进行 下 载 : 


http://apache.opencas.org/hbase/0.98.16.1/ 


在 Linux 中 通过 wget 命令 进行 下 载 : 


[root@www home]# wget 
http://apache.opencas.org/hbase/0.98.16.1/hbase-0.98.16.1-hadoopl-bin. 
tar.gz 

--2016-01-12 15:35:18-- 
http://apache.opencas.org/hbase/0.98.16.1/hbase-0.98.16.1-hadoopl-bin. 
tar.gz 

Resolving apache.opencas.org... 159.226.11.160, 
2001:cc0:2004:1:225:90f£:fe00:fe8b 

Connecting to apache.opencas.org|159.226.11.160|:80... connected. 

HTTP request sent, awaiting response... 200 OK 

Length: 75805159 (72M) [application/x-gzip] 

Saving to: "hbase-0.98.16.1-hadoopl-bin.tar.gz' 


Q) 解压 缩 。 

将 本 书 下 载 资源 中 的 hbase-0.98.3-hadoopl-bin.tar.gz 文件 上 传 至 /home/hadoop 目录 中 ， 
然后 执行 解压 缩 与 修改 目录 名 操作 。 

具体 的 操作 命令 如 下 : 


[root@www hadoop]# tar zxvf hbase-0.98.3-hadoopl-bin.tar.gz 

[root@www hadoop]£ 11 

total 65168 

drwxr-xr-x 7 root root 4096 Jan 12 15:41 hbase-0.98.3-hadoopl 
-rw-r--r-- 1 root root 66654349 Jun 12 2014 hbase-0.98.3-hadoopl-bin.tar.gz 
[root@www hadoop]£ mv hbase-0.98.3-hadoopl hbase 

[root@www hadoop]# cd hbase 

[root(www hbase]# 11 


total 172 

drwxr-xr-x 4 root root 4096 Jun 1 2014 bin 
-rw-r--r-- 1 root root 128252 Jun 1 2014 CHANGES.txt 
drwxr-xr-x 2 root root 4096 Jun 1 2014 conf 


root root 4096 Jun 1 2014 docs 


N 
œ% 


drwxr-xr-x 


drwxr-xr-x 7 root root 4096 Jun 1 2014 hbase-webapps 
drwxr-xr-x 3 root root 4096 Jan 12 15:41 lib 
-rw-r--r-- 1 root root 11358 May 23 2014 LICENSE.txt 
-rw-r--r-- 1 root root 897 May 23 2014 NOTICE.txt 


root root 1377 Jun 1 2014 README.txt 


ja 


-rw-r--r-- 


[root(www hbase]# 
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(3) 修改 配置 文件 。 

切换 到 HBase 的 conf 目录 中 ， 修 改 hbase-env.sh、hbase-site xml、regionservers 三 个 配 
置 文件 。 

这 三 个 文件 的 作用 与 修改 效果 操作 如 下 。 

(D hbase-envsh 文件 : 用 于 配置 HBase 环境 变量 ， 需 要 修改 JAVA HOME, 
HBASE MANAGES ZK 两 个 参数 , 前 者 是 配置 JDK 的 版 本 , 这 里 是 jdk1.8; 后 者 的 作用 是 
HBase 启动 与 关闭 时 是 否 同步 启动 与 关闭 Zookeeper， 为 了 方便 管理 ， 要 设置 为 tue， 即 同 
步 启 动 。 

具体 的 配置 信息 如 下 : 


[root@www conf]# vi hbase-env.sh 


export JAVA HOME=/usr/java/jdk1.8.0 05/ 
export HBASE MANAGES ZK-true 


TCR 


Q) hbase-site xml 文件 : 用 于 配置 HBase 运行 参数 ,重点 是 hbase.master、hbase.rootdir 
两 个 参数 ， 前 者 是 配置 主 master 绑 定 的 机 器 名 与 端口 号 ;后 者 是 配置 HBase 根 数据 放置 的 
位 置 , 本 次 部 署 是 基于 伪 分 布 式 , 因此 填充 的 值 是 本 地 目录 (在 使 用 前 先 创建 好 相应 的 目录 )， 
如 果 要 使 用 HDFS， 则 此 处 要 填充 HDFS 的 文件 系统 路 径 。 

具体 的 配置 信息 如 下 : 


[root@www conf]# vi hbase-site.xml 
<?xml version-"1.0"?» 
<?xml-stylesheet type-"text/xsl" href-"configuration.xsl"?» 
«configuration» 
<property> 
<name>hbase .master</name> 
«value»iZ23d4byllaZ:60000«/value» 
</property> 
<property> 
<name>hbase .master .maxclockskew</name> 
<value>180000</value> 
</property> 
<property> 
«name»hbase.rootdir«/name» 
«value»file:///home/hbase/data«/value» 
</property> 
<property> 
<name>hbase . Zookeeper .quorum</name> 
«value»iZ23d4byllaZ«/value» 
«/property» 
«/configuration» 


®© regionservers 文件 ， 用 于 配置 HBase 的 regionserver 机 器 列表 ， 这 里 只 填充 本 地 的 
主机 即 可 。 
具体 的 配置 信息 如 下 : 


[root@www conf]# vi regionservers 
iz23d4byllaZ 


数据 
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6.1.3 ”服务 的 启动 与 验证 











切换 至 /home/hbase/bin 目录 ， 执 行 .start-hbase.sh 命令 ,上 








于 启动 HBase 服务 。 通 过 jps 


命令 查看 三 个 进程 HMaster、HRegionServer、HQuorumPeer 是 否 启 动 成 功 ;， 通过 netstat 命 
令 查 看 三 个 服务 所 属 的 几 个 端口 60000、60010、60020、60030、2181 是 否 绑 定 成 功 ， 如 果 


出 现 错误 ， 读 者 可 以 通过 查询 log 文件 去 跟踪 出 错 的 原 
这 里 提 到 的 几 个 端口 的 作用 如 表 6-2 所 示 。 


因 。 





表 6-2 HBase 主要 端口 的 作用 


M" 











端口 号 | — 隶属 服务 作 用 配置 项 
60000 HMaster 用 于 HBase 主 节点 的 RPC 服务 | hbase.master 或 hbase.master.port 
60010 HMaster 用 于 HBase 主 节点 的 Web 服务 | hbase.master.info.port 
用 于 HRegionServer 节点 的 RPC . 
60020 HRegionServer "m hbase.regionserver.port 
. 用 于 HRegionServer 节点 的 Web 
60030 HRegionServer 服务 hbase.regionserver.info.port 
2181 HQuorumPeer 用 于 Zookeeper 守护 服务 hbase.Zookeeper.property.clientPort 
具体 的 启动 与 查看 操作 命令 如 下 : 
[root@www bin]# ./start-hbase.sh 
[root@www bin]# jps 
30528 Jps 
10859 HMaster 
9709 HQuorumPeer 
8207 HRegionServer 
[root@www bin]# netstat -nat 
Proto Recv-Q Send-Q Local Address Foreign Address State 
tcp 0 0 121.40.126.204:60000 0.0.0.0:* LISTEN 
tcp 0 0 0.0.0.0:2181 0.0.0.0:* LISTEN 
tcp 0 0 0.0.0.0:60010 0.0.0.0:* LISTEN 
tcp 0 0 121.40.126.204:60020 0.0.0.0:* LISTEN 
tcp 0 0 0.0.0.0:60030 0:0:0.0:* LISTEN 


6.1.4  HBase Shell 测试 
在 bin 目录 中 执行 .hbase shell 


启动 交互 命令 行 ， 通 过 状态 查询 ， 创 建 一 张 测试 表 ， 添 


加 与 查询 数据 ， 停 用 并 删除 测试 表 ， 以 测试 部 署 的 HBase 是 否 可 用 。 


(1) 启动 Shell。 





在 bin 目录 中 有 一 个 hbase 命令 ， 这 个 命令 可 用 于 管理 HBase 集群 ， 输 入 ./hbase 命令 ， 


可 以 查看 能 使 用 的 管理 命令 : 
[root@www bin]# ./hbase 
Usage: hbase [<options>] <command> [<args>] 
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Options: 
--config DIR Configuration direction to use. Default: ./conf 
--hosts HOSTS  Override the list in 'regionservers' file 


Commands: 
Some commands take arguments. Pass no args or -h for usage. 
shell Run the HBase shell 
hbck Run the HBase 'fsck' tool 
hlog Write-ahead-log analyzer 
hfile Store file analyzer 
zkcli Run the Zookeeper shell 
upgrade Upgrade HBase 
master Run an HBase HMaster node 
regionserver Run an HBase HRegionServer node 
Zookeeper Run a Zookeeper server 
rest Run an HBase REST server 
thrift Run the HBase Thrift server 
thrift2 Run the HBase Thrift2 server 
clean Run the HBase clean up script 
classpath Dump HBase CLASSPATH 
mapredcp Dump CLASSPATH entries required by MapReduce 
version Print the version 
CLASSNAME Run the class named CLASSNAME 
执行 .hbase shell， 可 以 运行 HBase Shell 命令 行 ， 运 行 后 ， 输 入 status 可 查询 HBase fE 
群 服务 的 可 用 性 状态 : 


[root@www bin]# ./hbase shell 

HBase Shell; enter 'help<RETURN>' for list of supported commands. 

Type "exit«RETURN»" to leave the HBase Shell 

Version 0.98.3-hadoopl, rd5e65a9144e315bb0a964e7730871af32f5018d5, Sat May 
31 19:34:57 PDT 2014 


hbase (main):001:0» status 


1 servers, 0 dead, 3.0000 average load 


Q) 创建 测试 表 。 
创建 一 张 testhbase 表 ， 里 面包 括 testl 、test2 两 个 字段 : 


hbase (main) :002:0> create 'testhbase','testl','test2' 
0 row(s) in 0.8370 seconds 


-» Hbase::Table - testhbase 
hbase (main):004:0» list 
TABLE 

testhbase 

1 row(s) in 0.0130 seconds 


=> ["testhbase"] 

(3) 数据 操作 。 

通过 put 命令 向 testhbase 表 中 写 入 一 条 记录 ， 填 充 testl 、test2 两 个 字段 的 内 容 ; 通过 
get 命令 查询 写 入 的 那 条 记录 ; 通过 scan 命令 检索 testhbase 的 整 张 表 : 


hbase (main) :002:0> put 'testhbase','1','test1','valuel' 
0 row(s) in 0.3840 seconds 


D 


hbase (main) :003:0> put 'testhbase','1','test2','value2' 
0 row(s) in 0.0120 seconds 


hbase (main) :004:0> get 'testhbase','1' 

COLUMN CELL 

testl: timestamp-1453080535845, value-valuel 
test2 timestamp-1453080555303, value-value2 
2 row(s) in 0.0550 seconds 





hbase (main):005:0» scan 'testhbase' 


ROW COLUMN-4CELL 
1 column-testl:, timestamp-1453080535845, value-valuel 
1 column-test2:, timestamp-1453080555303, value-value2 


1 row(s) in 0.0520 seconds 


(4) 删除 测试 表 。 
查看 上 一 步 创 建 的 测试 表 ， 同 时 停 用 测试 表 ， 再 将 该 表 删 除 : 


hbase (main) :007:0> describe 'testhbase' 


'testhbase', (NAME => 'testl', BLOOMFILTER => 'ROW', VERSIONS => '1', 

IN MEMORY => 'false', KEEP DELETED CELLS => 'true false', 

DATA BLOCK ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', 
MIN VERSIONS -» '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536', 
REPLICATION SCOPE => '0'}, (NAME => 'test2', BLOOMFILTER => 'ROW', VERSIONS 
=> 'l', IN MEMORY => 'false', KEEP DELETED CELLS => 'false', 

DATA BLOCK ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', 
MIN VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536', 
REPLICATION SCOPE => '0') 

1 row(s) in 0.3620 seconds 


hbase (main):008:0» disable 'testhbase' 
0 row(s) in 1.4070 seconds 


hbase (main):009:0» drop 'testhbase' 
0 row(s) in 0.1400 seconds 


hbase (main):010:0» list 
TABLE 
0 row(s) in 0.0090 seconds 


=>- 


6.1.5 Web 测试 


除了 命令 行 外 ，HBase 提供 了 简单 的 基于 Web 的 可 视 化 管理 手段 ， 通 过 浏览 器 可 以 查 
看 HBase 的 集群 状态 、 配 置 状态 、 日 志 信息 、 表 与 数据 信息 等 。HBase 中 涉及 两 个 重要 节 
点 ， 一 是 Master 节点 ， 用 于 HBase 集群 管理 与 调度 ， 二 是 RegionServer 节点 ， 用 于 具体 数 
据 处 理 。 

在 HBase 目录 的 hbase-webapps 子 目 录 中 ， 存 放 着 所 有 的 Web 管理 页 面 ， 该 目录 分 别 
为 master、regionserver、rest、static、thrift, 分 别 用 于 存放 不 同 功能 的 管理 页 面 , 其 中 , master 
用 于 管理 Master 节点 ; regionserver 用 于 管理 RegionServer 节点 ; rest 用 于 对 外 的 rest 接口 ; 
thrift 用 于 对 外 的 thrift 接口 ，static 用 于 共同 的 CSS, JS 等 页 面 。 

本 小 节 重 点 演示 HMaster, HRegionserver 节点 的 Web 管理 界面 。 
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(1) Master 节点 的 Web 管理 。 
在 浏览 器 中 输入 “http://IP:60010”, ot IP 地 址 , 读者 要 换 成 自己 安装 后 的 实际 IP. 地址， 
可 以 打开 并 查看 HBase 中 的 Master 节点 的 运行 状态 ， 如 图 6-2 所 示 。 








ME RA LAOS- 
ERPE B nass IT 新 于 上 路 > mud b 网 站 大 全 





RBHS Home TabieDetais Localloos Loglevel Debugdump ^ Metres pump ^ HBase Configuration 


Master iz23d4by1laz 


Region Servers 


Memory Requests — Storefies — Compactions 





ServerName Start time Requests Per Second Num. Regions 
\Z23d4by1laZ,60020,1451358168694 Tue Dec 29 11:02:48 CST 2015 0 2 
Total: 0 2 


Backup Masters 


ServerName Port Start Time 
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图 6-3 显示 了 当前 HBase 的 表 的 细节 信息 ， 在 上 一 小 节 创建 了 testhbase 表 ， 在 图 中 可 
以 看 到 该 表 的 信息 。 
EE m Noc 


4 [8 om 0/obesDetoiec op UE c| Quemar DE: di EE  & 6 5-8 
U teexgpeüis 图 ems m ws s amar 区 网 让 大 全 








Pii Home TobeDelals Localogs Loglevel Debugdump Metrics Dump 。 HBase Configuration 


User Tables 


1 table(s) in set. 
Table Description 


lesthbase "testhbase', (NAME => 'test1', BLOOMFILTER => 'ROW, VERSIONS => '1', IN MEMORY => false, KEEP DELETED CELLS => 'false', 
DATA BLOCK ENCODING => NONE, TTL => 'FOREVER', COMPRESSION => 'NONE', MIN. VERSIONS => '0', BLOCKCACHE => 'true', 
BLOCKSIZE => 65536, REPLICATION. SCOPE => '0}, (NAME => test2, BLOOMFILTER => 'ROW, VERSIONS => '1', IN, MEMORY => 'false', 
KEEP DELETED CELLS => 'false', DATA BLOCK, ENCODING => NONE', TTL => 'FOREVER', COMPRESSION => 'NONE;, MIN, VERSIONS 
=> '0, BLOCKCACHE => 'true', BLOCKSIZE => 65536", REPLICATION SCOPE => '0} 


Ble-3 表 信 息 的 查看 


(2) RegionServer 节点 的 Web 管理 。 

在 浏览 器 中 输入 “http://IP:60030”， 可 以 打开 并 查看 RegionServer 节点 的 运行 状态 ， 
如 图 6-4 所 示 。 

RegionServer 用 于 具体 的 HBase 数据 与 业务 处 理 ， 通 过 Web 界面 能 够 实时 监控 服务 的 
运行 、 资 源 消耗 、 队 列 等 信息 ， 如 图 6-5 所 示 。 
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Locallogs ^ Log Level Debug dump 


Metrics Dump 


HBase Configuration. 


RegionServer iz23d4by1laZ,60020,1451358168694 


Server Metrics 





Tasks 


Show All Monitored Tasks 


No tasks currently running on this node. 








Storefles Queues 


hiogs 


Num. Regions 


2 


Show All RPC Handler Tasks 


Block Cache 


Block locality 
0 0 


Show Active RPC Calls 


6-4 HBase RegionServer 节点 的 Web 管理 


Show Client Operations 


Slow HLog Append Count 


View as JSON 


Hease Region Serv 
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GRO |E 
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PEREE tome ene 


Tasks 


Al Monitore 





Start Time 

Thu Jan 21 16:15:48 CST 2016 
Thu Jan 21 16:10:48 CST 2016 
Thu Jan 21 16:05:48 CST 2016 
Thu Jan 21 16:00:48 CST 2016 
Thu Jan 21 15:55:48 CST 2016 
Thu Jan 21 15:50:47 CST 2016 
Thu Jan 21 15:45:57 CST 2016 
Thu Jan 21 15:45:48 CST 2016 
Thu Jan 21 15:45:47 CST 2016 


Thu Jan 21 15:45:46 CST 2016 


Show non-RPC Tasks 


Log Level 


Description 
RpcServer reader=0,port=60020 
RpeServer.reader=9,port=60020 
RpcServer.reader-8 port-60020 
RpcServer.reader-7 port-60020 
RpcServer reader-6 port-60020 
RpcServer.reader-5 port-60020 
RpcServer reader-4 port-60020 
RpcServer reader-3 port-60020 
RpcServer readerz2 port-60020 


RpcServer readers! port-60020 


Debugdump ^ Metrics Dump. 


ShowAIRPCHanderTasks Show Active RPC Calls 


HBase Configuration 


State 

WAITING (since 26mins, 54sec ago) 
WAITING (since 31mins, 54sec ago) 
WAITING (since 36mins, 54sec ago) 
WAITING (since 41mins, 54sec ago) 
WAITING (since 46mins, 54sec ago) 
WAITING (since 1mins, 54sec ago) 
WAITING (since 6mins, 54sec ago) 
WAITING (since 11mins, 54sec ago) 
WAITING (since 16mins, 54sec ago) 


WAITING (since 21mins, 54sec ago) 


Show Client Operations 


View as JSON 

Status 

Waiting for a call (since 26mins, 54sec ago) 
Waiting for a call (since 31mins, 54sec ago) 
Waiting for a call (since 38mins, 54sec ago) 
Waiting for a call (since 41mins, 54sec ago) 
Waiting for a call (since 46mins, 54sec ago) 
Waiting for a call (since 1mins, 54sec ago) 
Waiting for a call (since 6mins, 54sec ago) 
Waiting for a call (since 11mins, 54sec ago) 
Waiting for a call (since 16mins, 54sec ago) 


Waiting for a call (since 21mins, 54sec ago) 


Æ 6-5 HBase RegionServer 的 任务 处 理 


关于 HBase 的 Web 管理 。 

© 目前 ， 官 方 提供 的 版 本 主要 定位 于 显示 与 监控 。 

© ”有 兴趣 的 读者 可 以 尝试 开发 基于 Web 的 HBase 数据 管理 功能 ， 如 表 、 记 录 、 列 、 
数据 导入 、 寻 出 等 。 


E 
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6.1.6 ”服务 的 关闭 
在 bin 目录 中 执行 ./stop-hbase.sh 可 关闭 HBase, 由 于 当前 是 伪 分 布 式 部 署 , 所 以 只 会 
闭 当前 主机 上 的 服务 : 


[root@www bin]# ./stop-hbase.sh 
stopping hbase 





[root@www bin]# jps 
24463 Jps 


关闭 命令 : 在 分 布 式 集群 中 部 署 时 ， 执 行 本 命令 ， 会 关闭 整个 集群 。 


6.2 HBase 的 架构 原理 


列 存储 机 制 、Table 与 Region 模型 、 体 系 架构 、 读 写 模型 构成 了 HBase 的 基础 ， 是 实 
现 其 分 布 式 特性 的 核心 内 容 。 


6.2.1 组 成 架构 


HBase 由 客户 端 、HMaster、HRegionServer、Zookeeper 组 成 。 其 中 的 客户 端面 向 使 用 
者 ，HMaster 负责 HBase 的 全 局 事务 调度 ，HRegionServer 负责 HBase 的 具体 数据 存 取 ， 如 
果 为 伪 分 布 式 部 署 ， 则 数据 存放 在 本 地 ; 如 果 是 分 布 式 部 署 ， 则 数据 存放 于 HDFS 集群 ; 
Zookeeper 用 于 实时 感知 HBase 的 各 服务 状态 ， 保 持 服务 与 数据 的 一 致 性 。 

其 整体 架构 效果 如 图 6-6 所 示 。 

具体 功能 与 描述 如 下 。 

(1) 客户 端 。 

HBase 的 客户 端 通过 RPC 的 方式 与 HBase 进行 交互 通信 ， 基 本 原理 是 客户 端 向 HBase 
发 起 连接 , 通过 借助 Zookeeper 或 直接 访问 HMaster 去 检索 要 访问 的 表 数 据 具体 位 于 哪 一 个 
HRegionServer 节点 ， 而 后 ， 向 该 HRegionServer 节点 发 起 具体 的 数据 存 取 请 求 。 如 果 访问 
管理 层面 的 信息 ， 则 直接 从 HMaster 处 获取 。 

目前 , HBase 提供 了 多 种 接口 , 来 满足 不 同 的 用 户 访问 需求 , 这 些 接口 包括 HBase Shell, 
API、Thrift、REST、Hive 等 。 这 些 接口 的 描述 分 别 如 下 。 

(D HBaseShell: 是 HBase 自 带 的 命令 行 工具 ， 能 够 实现 HBase 的 基础 管理 功能 。 

@ API: HBase 提供 了 基于 Java 的 API 编程 接口 ， 这 也 是 从 事 HBase 开发 最 常用 的 
接口 使 用 方式 ， 后 面 的 内 容 会 详细 介绍 如 何 基于 Java 开发 基于 HBase 的 应 用 ， 以 及 如 何 借 
助 于 MapReduce 等 服务 处 理 海量 数据 。 

®© Thrift: 提供 Thrift 序列 化 技术 ， 用 于 方便 开发 人 员 通 过 其 他 编程 语言 ， 如 PHP. 
C++、Python 等 访问 HBase。 
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@ REST: 基于 REST 的 HTTP API 的 形式 也 可 以 去 访问 HBase， 这 更 大 地 降低 了 开 
发 的 难度 。 

®© Hive: 借助 Hive 的 SQL 语法 特性 以 及 MapReduce 处 理 能 力 ， 在 HBase 中 ， 可 以 
融合 Hive， 借 助 Hive 去 处 理 HBase 表 数 据 。 


关于 客户 端 延伸 。 

(D 读者 可 以 基于 熟悉 的 编程 语言 去 开发 HBase 应 用 ， 通 过 开源 社区 ， 可 以 寻找 适合 
项 目的 HBase 管理 工具 。 

Q 有 兴趣 的 读者 可 以 开发 一 个 基于 Web 的 可 视 化 HBase 数据 管理 系统 ， 类 似 于 
MySQL 中 的 PHPMyAdmin. 

© 可 以 借助 于 Hive 中 的 外 部 表 ， 将 表 的 数据 源 定向 到 HBase， 这 样 ， 可 以 实现 两 者 
之 间 的 融合 。 

(2) HMaster. 

HMaster 可 以 理解 为 HBase 的 大 脑 ， 负 责 整个 HBase 的 调度 与 管理 ， 其 主要 作用 如 下 。 

© 负责 元 数据 以 及 数据 表 的 管理 ， 包 括 表 的 增删 改 查 、 表 的 定义 、 表 的 变更 、 命 名 
空间 的 定义 等 。 

© ”负责 管理 所 有 的 HRegionServer 节点 ， 监 测 各 节点 的 状态 ， 负 责 各 节点 的 上 线 、 下 
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载 ， 实 现 节点 间 的 负载 均衡 。 

© 负责 管理 HRegion 区 域 ， 每 一 个 表 由 一 个 或 多 个 HRegion 区 域 构成 ， 而 每 个 
HRegionServer 负责 管理 一 个 或 多 个 HRegion 区 域 , HMaster 全 局 管理 与 分 配 哪 一 个 HRegion 
应 该 放置 于 哪 一 台 HRegionServer P; 对 于 超出 规模 的 HRegion 区 域 进行 分 裂 ; 负责 停止 服 
务 的 HRegionServer 中 的 HRegion 向 其 他 节点 的 迁移 等 。 

由 负责 全 局 安全 策略 管理 。 

@ ”负责 集群 事务 管理 ， 如 日 志 管理 等 。 

© 负责 与 Zookeeper 集群 交互 。 

在 HBase 的 架构 中 ,通常 ，HMaster 可 以 由 单 节 点 构成 ， 但 为 了 确保 可 靠 性 ， 也 可 以 同 
时 部 署 于 两 个 以 上 节点 ， 不 过 ， 多 节点 情形 下 ， 同 时 只 能 有 一 个 节点 处 于 主 服务 状态 ， 其 
他 节点 要 启动 备用 模式 ， 处 理 备 份 的 节点 会 定期 与 主 节点 进行 信息 同步 ， 当 主 节点 发 生 故 
障 时 ， 通 过 Zookeeper 集群 的 选举 机 制 ， 从 备用 节点 中 选 出 新 的 主 服 务 节点 。 


[wem | 
关于 HMaster 5 HRegion. 
© HMaster 部 署 位 置 也 可 与 HDFS 的 名 字 节 点 位 于 同一 台 机 器 上 。 
© HMaster 负责 维护 -ROOT-、.meta 表 ， 后 面 会 介绍 这 两 张 表 的 作用 。 
@ HRegion 是 HBase 中 基准 的 数据 单元 ， 后 面 会 详细 介绍 其 内 容 。 


(3) HRegionServer. 

HReginServer 可 以 理解 为 HBase 的 身体 ， 负 责 HBase 的 数据 存 取 工 作 ， 所 有 客户 端 对 
数据 的 最 终 读 写 操作 都 将 落 到 HRegionServer 上 。 一 般 ，HRegionServer 的 主要 作用 如 下 。 

© 数据 存储 。 借 助 本 地 文件 系统 或 HDFS 进行 表 数 据 、 日 志 、 缓 存 等 数据 的 存储 组 
织 与 管理 。 

@ HRegion 管理 。 负 责 每 个 HRegion 的 状态 维护 、 归 并 、 迁 移 等 工作 。 

© WAL(HLog) 管 理 。 负 责 日 志 信 息 的 管理 ， 在 HBase 中 ， 所 有 的 数据 更 新 需要 先 写 
入 日 志 ， 再 执行 数据 更 新 操作 。 

由 Metrics 管理 。 负 责 对 外 提供 内 部 服务 状况 的 参数 ， 包 括 内 存 使 用 、Region 服务 状 
况 、Compaction、blockCache 等 。 由 于 HBase Metrics 继承 了 Hadoop Metrics， 因 此 支持 文 
件 、 数 据 流 、Ganglia 等 多 种 输出 方式 ， 便 于 外 部 监控 。 

@ 与 客户 端 进行 RPC 交互 ， 承 担 具体 的 数据 读 取 与 写 入 。 

与 HMaster 节点 交互 。 查 询 元 数据 、 上 报 自身 数据 状态 ， 并 按 HMaster 调度 接管 
其 他 失效 HRegionServer 节点 的 数据 与 服务 。 

© 与 Zookeeper 集群 交互 。 确 保 分 布 式 环境 下 的 信息 共享 以 及 待 执 行 任 务 的 协同 。 


关于 HRegionServer。 
© 在 分 布 式 环境 中 部 署 时 ，HRegionServer 一 般 和 HDFS 集群 的 DataNode 在 同一 台 
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机 器 上 。 
Q) 每 个 HRegionServer 节点 包含 多 个 HRegion. 
图 每 个 HRegionServer 节点 可 以 同时 承担 多 个 表 数 据 的 存储 。 


(4) Zookeeper。 

Zookeeper 是 分 布 式 应 用 程序 协调 服务 ， 用 于 为 分 布 式 应 用 程序 提供 一 致 性 服务 ， 它 是 
Google Chubby 项 目的 开源 实现 ， 是 HBase 的 重要 支撑 。 

它 在 HBase 中 的 主要 作用 如 下 。 

© ”负责 存放 HBase 中 的 元 数据 与 集群 状态 信息 。 

© 协调 HMaster 节点 的 主 从 切换 ， 当 检测 到 主 HMaster 节点 宕 机 时 ， 会 通知 备用 
HMaster 节点 进行 接管 ， 并 知 会 所 有 HRegionServer 节点 。 

© 协调 所 有 HRegionServer 节点 上 线 与 下 线 ， 当 检测 到 新 的 HRegionServer 节点 加 入 
后 ,通知 HMaster 进 行 加 入 ,管理 集合 ; 当 检测 到 HRegionServer 节点 下 线 时 ,会 通知 HMaster， 
并 协同 其 他 HRegionServer 节点 对 宕 机 的 HRegionServer 节点 的 HRegion 集合 进行 接管 。 

© 面向 客户 端 提供 RPC 服务 端口 。 

在 HBase 中 ， 提 供 了 一 个 基于 Web 的 Zookeeper 状态 查询 页 面 ， 该 页 面 比较 简单 ， 访 
问 的 地 址 为 http://ip:60010/zkjsp， 访 问 效果 如 图 6-7 所 示 。 

éc Remo "No caa K *624^1$9655- 
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Æ 6-7 Zookeeper Dump 页 面 


| 小 提示 | 


关于 Zookeeper 集群 。 

(D Zookeeper 可 以 独立 部 署 在 新 的 机 器 上 ， 形 成 一 套 自主 集群 ， 也 可 以 部 署 在 
HMaster、HRegionServer 节点 上 。 

®© Zookeeper 集群 部 署 要 采用 奇数 个 ， 这 是 由 于 其 选举 算法 是 当 多 个 Zookeeper 节点 
写成 功 时 ， 任 务 数 据 才 算 成 功 ， 如 果 有 3 节点 的 Zookeeper， 其 中 2 个 节点 写成 功 ， 即 为 成 
功 ; 如 果 为 5 个 节点 ， 则 其 中 3 个 节点 写 入 成 功 ， 即 为 成 功 。 
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6.2.2 ”数据 模型 


HBase 由 表 (Table)、 行 Row)、 行 键 值 Row Key)、 列 簇 (Column Family)、 列 (Column)、 
版 本 (Version)、 时 间 惟 (timestamp) 等 组 成 。 其 数据 模型 如 图 6-8 所 示 。 






































| 表 
行 | | 行 
行 键 值 JUI | 列 簇 2 | | 行 键 值 | 列 能 1 | Jia 
列 1 列 2 列 2 列 1 列 2 列 2 









































6-8 HBase 的 数据 模型 


(1) 表 (Table)。 

表 是 HBase 数据 存储 形式 ，HBase 可 定义 多 张 数 据 表 ， 每 张 数据 表 由 多 行 组 成 。 

Q) 行 与 行 键 (Row & Row Key). 

传统 关系 型 数据 库 基于 行 存储 的 ， 而 HBase 是 基于 列 存储 的 ， 即 <key，value> 机 制 ， 每 
一 行 记录 由 行 健 、 多 个 列 簇 构成 ， 每 个 行 键 是 一 个 字符 串 ， 以 数组 的 形式 存储 ， 以 英文 字 
典 序 的 形式 排序 ， 长 度 最 大 不 能 超过 64KB。 

访问 HBase 表 中 的 记录 时 ， 只 能 通过 查询 行 键 的 方法 去 获取 ， 在 HBase 中 ， 提 供 了 三 
种 访问 方法 。 

e 单行 访问 : 通过 查询 单个 行 键 值 进行 访问 。 

e ”区 间 访 问 : 通过 设 定 行 键 值 区 间 进 行 访问 。 

e ERIH: 通过 对 全 表 做 扫描 进行 访问 。 
[54x ] 

行 键 与 性 能 。 

(D 通常 ， 一 个 行 键 长 度 可 控制 在 100 字 节 以 内 ， 可 提高 查询 性 能 。 

Q 将 经 常 一 起 操作 的 行 放 在 一 起 ， 通 过 位 置 相关 性 ， 可 提高 查询 性 能 。 

(3) Füff(Column Family) 与 列 (Column)。 

在 HBase 中 ， 数 据 部 分 可 由 多 个 列 簇 (Column Family) 构 成 ， 每 个 列 簇 由 一 个 或 多 个 列 
组 成 ， 这 与 传统 的 关系 型 数据 库 的 行 、 列 的 概念 有 了 很 大 的 区 别 。 
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例如 ， 假 定 每 个 人 的 年 收入 (income) 由 工资 收入 (salary)、 奖 金 收入 (bonus)、 利 息 收 入 
(interest) 构 成 ， 在 传统 关系 型 数据 库 里 ， 如 果 要 定义 员工 收入 表 ， 上 述 的 三 部 分 会 构成 一 个 
表 的 三 个 列 ; 而 在 HBase 里 ， 设 计时 可 以 定义 一 个 收入 列 簇 income， 上 述 三 部 分 是 income 
列 簇 里 面 的 三 个 列 ， 即 工资 收入 income:salary， 奖 金 收 入 income:bonus， 利 息 收 入 
income:interest， 从 表述 中 可 以 看 出 ， 要 操作 HBase 表 中 的 某 一 列 , 需要 先 指 定 其 列 徐 前缀， 
才 可 以 访问 。 

HBase 的 访问 控制 、 数据 存储 是 基于 列 簇 这 个 基础 的 , 列 艇 与 列 艇 之 间 可 能 是 分 布 在 不 
同 的 物理 机 器 上 的 ， 因 此 ， 要 提高 访问 性 能 ， 需 要 将 关联 性 比较 高 的 列 放 在 同一 列 簇 里 。 
此 外 ， 在 同一 列 簇 里 的 不 同 的 行 ， 可 以 存在 不 同 的 列 ， 列 簇 里 的 列 可 以 无 须 声 明 直接 使 用 。 

例如 ， 公 司 在 发 展 ， 员 工 逐 渐 划 分 出 多 个 层级 ， 有 些 层级 的 员工 (如 高 管 ) 开 始 享有 股份 
激励 收入 (stock)， 传 统 的 关系 数据 库 需 要 重新 修改 表 结 构 ， 但 在 HBase 中 无 须 这 么 做 ， 每 
一 行 代表 一 个 员工 , 只 需 针 对 需要 享受 此 项 收入 的 员工 所 对 应 的 行 提交 income:stock 列 及 相 
关 数 据 ， 即 可 完成 此 收入 的 填报 ， 而 无 须 定义 此 列 。 


| em | 


关于 列 徐 : 通常 ， 一 个 HBase RORARXGUEA ARMADA. TAREHE, R AC 
量 是 2 到 3 ^51. 





























(4) 版 本 (Version)、 时 间 改 (Timestamp) 与 数据 (data)。 

HBase 在 写 入 数据 时 的 时 间 戳 极为 关键 ， 它 是 精确 到 毫秒 的 一 个 64 位 整 型 数 ， 可 以 是 
系统 自动 填充 的 ， 也 可 以 由 用 户 显 式 赋值 。 对 一 个 具体 的 行 、 列 ， 每 次 提交 的 数据 与 时 间 
截 构成 一 次 数据 版 本 ， 每 个 行 的 每 一 列 都 可 以 存储 多 个 数据 版 本 ， 不 同 数据 版 本 之 间 通 过 
时 间 恰 进行 排序 ， 最 近 的 排 在 最 前 面 ， 用 户 访问 某 一 行 某 一 列 时 ， 默 认 会 返回 最 新 提交 的 
内 容 ， 而 通过 < 行 键 、 列 、 版 本 号 > 可 以 访问 某 一 行 、 某 一 列 指定 时 间 的 数据 。 

例如 ， 针 对 员工 张 三 ， 每 年 工资 收入 都 会 有 变化 ， 我 们 可 以 在 2014 提交 一 次 20000; 
2015 提交 一 次 25000; 2016 提交 一 次 30000; 当 2016 年 访问 income:salary 字段 时 ， 返 回 的 
结果 为 30000， 如 果 我 们 想 了 解 2015 的 收入 水 平 ， 在 HBase 中 极为 简单 ， 只 需要 访问 时 加 
上 版 本 号 ， 即 可 返回 2015 年 的 工资 收入 ， 如 果 是 传统 关系 型 数据 库 ， 则 会 相对 复杂 ， 需 要 
额外 建立 一 个 工资 收入 的 历史 信息 表 。 


关于 版 本 。 

(D 每 一 列 可 以 定义 多 个 版 本 , 通过 设 定 参 数 HColumnDescriptor 可 以 定义 每 个 列 徐 的 
最 大 版 本 数 、 最 小 版 本 数 。 

© 版 本 回收 可 以 通过 设 定 版 本 总 数 或 者 设 定 某 一 时 期 内 的 版 本 总 数 进行 控制 。 


(5) 示例 : HBase 数据 模型 。 
结合 本 小 节 所 提 到 的 员工 收入 示例 ， 表 6-3 给 出 了 在 HBase 中 的 逻辑 数据 模型 。 
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表 6-3 HBase 中 的 员工 收入 表 




















Staffincome Æ 
行 键 值 时 间 戳 income 列 簇 (column family) 
(Row Key) (TimeStamp) salary bonus interest stock 
(员工 ID) 
A 12000 
1000 10000 
B 
c 2000 








针对 上 述 数据 表 ， 有 以 下 解读 。 

© 数据 表 类 似 于 一 张 二 维 的 稀 玻 矩阵 ,实际 上 ,HBase 中 的 数据 表 本 质 上 就 是 一 个 稀 
ERE. 

© 数据 表 中 的 数据 更 新 可 以 一 次 更 新 本 行 中 所 有 的 列 ， 也 可 以 只 更 新 本 行 中 某 一 列 
或 某 几 列 ， 此 外 ， 数 据 表 可 以 灵活 地 在 列 簇 中 扩展 数据 列 ， 无 须 定 义 。 

© 数据 表 的 定义 以 员工 ID 为 行 键 值 ， 通过 查找 员工 ID， 能 够 定位 到 具体 的 记录 ， 默 
认 碍 询 时 ， 会 返回 最 新 时 间 戳 的 记录 ， 如 查询 A 员工 所 有 收入 ， 返 回 的 值 为 <salary:30000， 
bonus:3000, ，interest:1000 ，stock:12000>，B 员工 的 所 有 收入 返回 值 为 <salary:10000， 
bonus:3000>， 员 工 C 的 所 有 收入 返回 值 为 <salary:10000，bonus:1000，interest:2000>。 

© ”通过 时 间 戳 ， 可 以 直观 地 看 到 某 一 行 、 某 一 列 的 历史 版 本 信息 ， 设 定 版 本 号 范围 ， 
即 可 以 查询 先前 的 数据 情况 ， 这 种 机 制 本 身 ， 能 够 缓解 因数 据 更 新 误 操 作 而 带 来 的 数据 安 
全 问题 。 


6.2.3 ”物理 存储 


传统 的 关系 型 数据 库 管理 系统 会 随 着 数据 表 规 模 的 不 断 扩 大 ， 面 临 容量 与 性 能 两 方面 
的 问题 ， 在 HBase 表 的 物理 存储 中 ， 采 用 了 区 域 的 概念 ， 即 HBase 中 的 每 张 表 默认 只 有 一 
个 区 域 Region， 用 于 保存 数据 表 中 某 段 连续 的 数据 ， 如 存储 数据 表 中 的 若干 行 )， 随 着 数据 
量 的 增长 ， 会 被 拆 分 成 两 个 或 多 个 区 域 ， 在 物理 存放 时 ，Region 会 被 存储 至 不 同 的 
HRegionServer 上 ， 形 成 了 分 布 式 的 存储 模式 。 

在 HBase 中 ， 一 张 表 可 以 由 多 个 存放 到 不 同 服务 器 上 的 Region 构成 ，HBase 表 、 
HRegion. HRegionServer 之 间 关 系 可 由 图 6-9 来 示意 。 

将 每 张 表 按 行 键 值 区 域 划 分 出 不 同 的 Region， 每 个 Region 分 布 式 存储 到 不 同 的 
RegionServer 服务 器 上 。 对 于 用 户 的 访问 请 求 ,根据 所 输入 的 行 键 值 ,定位 到 所 访问 的 Region 
存储 的 具体 HRegionServer， 而 后 通过 与 该 HRegionServer 的 交互 ， 获 取 具 体 的 数据 信息 。 

基于 这 种 分 布 式 的 存储 访问 机 制 ， 一 方面 解决 了 表 数 据 容量 的 线性 扩展 问题 ， 如 果 表 
数据 量 激增 (TB 乃至 PB 级 ) 通 过 加 入 相对 应 数量 的 HRegionServer 服务 器 , 即 可 满足 容量 要 
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求 ， 另 一 方面 ， 由 于 具体 的 数据 交互 是 与 HRegionServer 进行 的 ， 而 每 个 HRegionServer 只 
存储 一 定数 量 的 Region， 因 此 ， 增 加 HRegionServer 就 可 以 提升 集群 整体 并 发 访问 能 















KEY :000-100 
KEY:101-200 
KEY:201-300 
KEY:301-400 
KEY :401-500 
KEY:501-600 
KEY:601-700 
KEY:801-800 








X (Table) 























图 6-9 表 存 储 模型 


(1) 特殊 的 表 。 

在 HBase 中 有 两 个 特殊 的 表 ， 一 个 是 -ROOT-; 另 一 个 是 .meta， 这 两 张 表 的 作用 ， 是 支 
撑 HBase 中 的 数据 寻 址 ， 其 中 ，-ROOT- 表 存储 .meta 表 中 的 Region 位 置信 息 ; meta 表 存 储 
HBase 中 所 有 用 户 数据 表 的 Region 位 置信 息 。 

检索 过 程 的 效果 如 图 6-10 所 示 。 
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R00T- 表 用 户 表 1 索引 
(区 域 分 布 ) 
ZooKeeper | 一 一 . WAR TE 人 
用 户 表 3 索引 
(区域 分 布 ) 
Client 











图 6-10 ”数据 访问 检索 模型 


-ROOT- 的 存放 位 置 由 Zookeeper 记录 ， 对 于 用 户 的 访问 请 求 ， 首 先 查 询 -ROOT- 表 ， 查 
看 要 访问 的 数据 表 存 放 在 哪个 .meta 表 中 , 然后 去 查找 相对 应 的 .meta R, 获取 目标 数据 表 的 
区 域 分 布 情况 ， 通 过 比 对 行 键 值 ， 获 取 具 体 存 放 数 据 的 HRegionServer， 最 后 去 访问 
HRegionServer， 获 操作 数据 。 

HBase 面临 着 PB 级 数据 表 的 存储 压力 ， 这 些 数据 表 的 Region 的 数量 也 极为 海量 ， 因 
而 存储 这 些 Region 索引 信息 的 .meta 表 也 会 变 得 非常 大 ， 在 HBase 管理 时 ， 会 将 .meta 表 拆 
分 成 多 个 Region， 这 些 Region 同样 会 存放 至 不 同 的 HRegionServer 上 ， 对 于 用 户 的 频繁 数 
据 访 问 ， 如 果 每 次 访问 都 需要 直接 查询 .meta 表 ， 则 效率 会 非常 差 ， 因 此 ，HBase 引入 的 
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-ROOT- 用 于 存储 .meta 的 Region 分 布 信 息 ， 同 时 ， 为 了 提升 性 能 ， 以 及 考虑 到 针对 .meta X 
的 索引 数据 量 不 会 特别 大 ，-ROOT- 表 由 一 个 Region 组 成 。 

-ROOT-、.meta 表 的 格式 极为 相似 ， 行 键 值 由 tableName、regionStartKey、regionld、 
replicald 等 信息 组 成 ， 列 簇 由 一 个 info 组 成 ，info JIH regioninfo、server、serverstartcode 
三 列 组 成 。 其中, RegionInfo 列 存放 区 域 描述 信息 , 由 regionId, tableName、 startKey、 endKey、 
offline、split、replicald 等 组 成 ; server 列 存 放 对 应 的 HRegionServer 服务 器 , 包括 信息 server 
Lj port; serverstartcode 对 应 时 间 信 息 ， 为 HRegionServer 的 启动 时 间 恰 。 

HBase 将 .meta 表 存 放 于 命名 空间 hbase 中 ， 可 以 通过 如 下 命令 查看 其 元 结构 : 


hbase(main):105:0» describe 'hbase:meta' 
DESCRIPTION 
ENABLED 


'hbase:meta', (TABLE ATTRIBUTES => (IS META => 'true', coprocessor$1l => 

' |org. apache. hadoop.hbase.coprocessor.MultiRowMutationEndpoint |536870911 
|'), (NAME => 'info', BLOOMFILTER => 'NONE', VERSIONS => '10', IN MEMORY => 
'true', KEEP DELETED CELLS => 'false', DATA BLOCK ENCODING => 'NONE', TTL 
=> 'FOREVER', COMPRESSION => 'NONE', MIN VERSIONS => '0', BLOCKCACHE => 'true', 
BLOCKSIZE => '8192', REPLICATION SCOPE => "0*y 

1 row(s) in 0.0240 seconds.. 


通过 scan 命令 可 以 扫描 info 列 簇 中 的 各 列 信息 ， 如 下 所 示 : 


hbase (main) :108:0> scan 'hbase:meta' 

ROW COLUMN+CELL 

hbase:namespace, ,1451358713278.2da column=info:seqnumDuringOpen, 
timestamp=1453362348280, value=\x00\x00\x00\x00\x00\x00\x00\x05 
d5136e3f76dabl2bccd76c213121b.hbase:namespace,,1451358713278.2da 
column-info:server, 

timestamp-1453362348280, 
value-iZ23d4byllaZ:60020d5136e3f76dabl2bccd76c213121b.hbase:namespace,, 
1451358713278.2da column-info:serverstartcode, 
timestamp-1453362348280, 
value-14533623352284d5136e3f76dabl2bccd76c213121b. 


testhbase,,1453080469131.0c3da9d15 column-info:regioninfo, 
timestamp-1453080469185, value-(ENCODED => 
0c3da9d154163bbb2b106ae878acc9cc, 

4163bbb2bl06ae878acc9cc. NAME => 
'testhbase,,1453080469131.0c3da9d154163bbb2bl106ae878acc9cc.', STARTKEY 
-»'', ENDKEY => '') 

testhbase,,1453080469131.0c3da9d15 column-info:seqnumDuringOpen, 
timestamp-1453362348279, value=\x00\x00\x00\x00\x00\x00\x00\x05 
4163bbb2b106ae878acc9cc.testhbase,,1453080469131.0c3da9d15 
column-info:server, 

timestamp-1453362348279, value-iZ23d4byllaZ:600204163bbb2b106ae878acc9cc. 
testhbase,,1453080469131.0c3da9d15 column-info:serverstartcode, 
timestamp-1453362348279, value-14533623352284163bbb2b106ae878acc9cc. 


在 HBase 中 还 有 一 张 namespace 表 ， 这 张 表 的 作用 是 存储 HBase 所 用 命名 空间 的 元 数 
据 信 息 ， 默 认 时 ，HBase 会 自 带 hbase, default 两 个 命名 空间 ， 它 的 格式 与 列 入 信息 如 下 : 


hbase (main) :110:0> describe 'hbase:namespace' 

DESCRIPTION 

ENABLED 

'hbase:namespace', (NAME => 'info', BLOOMFILTER => 'ROW', VERSIONS => 
'10',true 
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IN MEMORY => 'true', KEEP DELETED CELLS => 'false', DATA BLOCK ENCODING => 
'NONE', TTL => 'FOREVER ', COMPRESSION => 'NONE', MIN VERSIONS => '0', 
BLOCKCACHE => 'true', BLOCKSIZE => '8192 ', REPLICATION SCOPE => "0°'} 

1 row(s) in 0.0280 seconds 

hbase (main) :111:0> scan 'hbase:namespace' 


ROW COLUMN+CELL 

default column=info:d, timestamp=1451358714056, 
value=\x0A\x07default 

hbase olumn=info:d, timestamp=1451358714080, 


value=\x0A\x05hbase 

2 row(s) in 0.0110 seconds 

(2) HRegion. 

整个 HBase 集群 中 ,每 台 HRegionServer 4f fii Z^ HRegion(H- Region 以 区 分 为 HBase 
的 Region)， 这 些 HRegion 可 以 来 源 于 多 个 数据 表 。HRegion 作为 基础 的 数据 存储 单元 ， 由 
HMemcache( 缓 存 文件 )、HLog( 日 志文 件 )、HStore( 持 久 文件 ) 三 部 分 组 成 。HLog 存放 日 志 信 
息 , 用 于 日 志 回 滚 与 查看 ; HMemcache 存放 缓存 数据 , 用 于 数据 更 新 以 及 数据 查询 ; HStore 
存放 持久 化 数据 ， 用 于 数据 物理 存储 。 

在 HBase 中 ，HRegionServer、HRegion、HMemcache、HLog、HStore 相互 之 间 的 关系 


如 图 6-11 所 示 。 
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图 6-11 物理 存储 模型 


对 于 一 条 要 更 新 的 数据 ， 在 写 入 时 ， 先 检查 HMemcache 中 有 无 相同 的 更 新 请 求 ， 如 有 
则 返回 : 如 果 没 有 ， 则 先 在 HLog 中 写 入 日 志 ， 而 后 写 入 至 HMemcache 中 ，HMemcache 
在 一 定 周期 内 ， 会 将 待 写 入 的 所 有 数据 请 求 刷新 至 HStore 中 ， 而 HStore 在 集群 中 与 HDFS 
交互 ， 负 责 数据 的 持久 化 写 入 。 


6.3 HBase 的 命令 实践 


HBase Shell 中 涉及 到 命名 空间 、 表 、 数 据 增删 改 查 、 工 具 、 权 限 等 命令 ， 这 些 命令 对 
于 掌握 并 管理 HBase 是 非常 关键 的 。 
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6.3.1 概述 


HBase 提供 了 九 大 类 命令 , 包括 通用 (general)、DDL、DML、 命 名 空间 (namespace)、 工 
具 (tools)、 快 照 (snapshot)、 安 全 (security)、 可 视 化 标签 (visibility labels)、 复 制 (replication) 等 ， 
每 一 类 命令 的 具体 作用 如 表 6-4 所 示 。 这 些 命令 可 以 帮助 管理 与 操作 HBase 集群 。 


表 6-4 HBase 命令 分 类 

















分 类 作 用 
通用 信息 查看 命令 ， 如 HBase 版 本 、HBase 当前 状态 
DDL 数据 定义 语言 ， 如 表 的 定义 、 修 改 、 删 除 
DML 数据 操纵 语言 ， 如 记录 的 新 增 、 修 改 、 删 除 、 事 务 处 理 
命名 空间 表 的 逻辑 分 组 管理 ， 如 ， 一 个 命名 空间 可 包括 多 张 表 
工具 HBase 工具 ， 用 于 集群 管理 ， 如 调整 Region 等 
快照 HBase 快照 ， 如 删除 快照 、 创 建 快 照 
安全 权限 与 安全 管理 ， 如 分 配 权限 、 回 收 权限 





息 的 描述 标签 ， 如 添加 标签 
数据 复制 , 使 用 前 hbase.replication 状态 须 置 为 true. 


可 视 化 标签 HBase 用 户 或 
复制 节点 管理 , 如 添加 节点 、 删除 











在 HBase Shell 中 输入 help 命令 ， 可 以 查看 所 有 分 类 及 其 所 属 命令 的 清单 。 


hbase (main) :005:0>help 


COMMAND GROUPS: 
Group name: general 
Commands: status, table help, version, whoami 


Group name: ddl 

Commands: alter, alter async, alter status, create, describe, disable, 
disable all, drop, drop all, enable, enable all, exists, get table, 
is disabled, is enabled, list, show filters 


Group name: namespace 
Commands: alter namespace, create namespace, describe namespace, 
drop namespace, list namespace, list namespace tables 


Group name: dml 
Commands: append, count, delete, deleteall, get, get counter, incr, put, 
Scan, truncate, truncate preserve 


Group name: tools 

Commands: assign, balance switch, balancer, catalogjanitor enabled, 
catalogjanitor run, catalogjanitor switch, close region, compact, flush, 
hlog roll, major compact, merge region, move, split, trace, unassign, 
zk dump 

Group name: replication 

Commands: add peer, disable peer, enable peer, list peers, 
list replicated tables, remove peer, set peer tableCFs, Show peer tableCFs 


Group name: snapshot 
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Commands: clone snapshot, delete snapshot, list snapshots, 
rename snapshot, restore snapshot, snapshot 


Group name: security 
Commands: grant, revoke, user permission 


Group name: visibility labels 
Commands: add labels, clear auths, get auths, set auths, set visibility 








F 某 一 分 类 ， 输 入 help “groupname”， 可 查看 该 分 类 的 描述 ， 如 查看 general 分 类 的 











使 用 : 


hbase (main):032:0» help 'general' 

Command: status 

Show cluster status. Can be 'summary', 'simple', or 'detailed'. The 
default is 'summary'. Examples: 





hbase» status 

hbase» status 'simple' 
hbase» status 'summary"' 
hbase» status 'detailed' 


Command: table help 
Help for table-reference commands. 


对 于 某 个 命令 ， 输 入 help“command”， 可 查看 其 具体 的 使 用 语法 ， 例 如 ， 查 看 grant 命 
令 的 使 用 : 


hbase (main):013:0» help "grant" 

Grant users specific rights. 

Syntax : grant «user» «permissions» [«table» [«column family» [«column 
qualifier»]] 


permissions is either zero or more letters from the set "RWXCA". 
READ('R'), WRITE('W'), EXEC('X'), CREATE('C'), ADMIN('A') 


For example: 


hbase» grant 'bobsmith', 'RWXCA" 
hbase» grant 'bobsmith', 'RW', 'tl', 'fl', 'coll' 
hbase» grant 'bobsmith', 'RW', 'nsl:tl', 'fl', 'coll' 


6.3.2 命名 空间 


从 HBase 0.98 版 本 开始 支持 命名 空间 (namespace)， 命 名 空间 用 于 对 HBase 中 的 表 进行 
逻辑 管理 , 类 似 于 传统 DBMS 中 数据 库 的 概念 , 一 个 数据 库 里 可 以 建 多 张 表 , E, 在 HBase 
的 命名 空间 里 ， 可 以 管理 多 张 表 。 

HBase 命名 空间 的 命令 包括 : 本 身 支持 的 创建 、 删 除 、 查 询 等 操作 。 

(1) 创建 命名 空间 。 

使 用 create namespace 命令 ， 后 面 跟 命 名 空间 的 名 称 ， 可 以 创建 一 个 新 的 命名 空间 ， 这 
里 创建 一 个 名 为 bigdata 的 命名 空间 : 


hbase (main):008:0» create namespace 'bigdata' 
0 row(s) in 0.0280 seconds 
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(2) 查看 命名 空间 。 

使 用 list namespace 命令 ,可 以 列 出 当前 所 有 的 命名 空间 。 在 HBase 中 ,默认 的 命名 空 
间 有 两 个 ,一 个 是 hbase, 是 系统 内 建 的 ,用 于 存放 meta, namespace MIKK: 另 一 个 是 default, 
对 于 没有 指定 命名 空间 创建 的 表 ， 默 认 都 会 放置 到 default 命名 空间 中 。 


hbase (main) :009:0> list namespace 

NAMESPACE 

bigdata 

default 

hbase 

3 row(s) in 0.0680 seconds 

list namespace 命令 后 面 可 以 跟 命名 空间 名 称 ， 用 于 模糊 查找 符合 正则 表达 式 的 命名 空 
间 。 例 如 ， 创 建 一 个 新 的 命名 空间 big， 然 后 通过 模糊 查询 去 查看 所 有 满足 前 绥 为 big 的 命 
名 空间 : 

hbase (main) :015:0> create namespace 'big' 

0 row(s) in 0.0270 seconds 


hbase (main) :017:0> list namespace 'big*' 

NAMESPACE 

big 

bigdata 

2 row(s) in 0.0110 seconds 

(3) 查看 命名 空间 的 表 。 

list namespace tables 命令 列 出 指定 命名 空间 所 有 的 表 的 清单 。 例 如 ， 列 出 当前 hbase 
命名 空间 中 的 所 有 表 : 


hbase (main) :020:0> list namespace tables 'hbase' 
TABLE 

meta 

namespace 

2 row(s) in 0.0310 seconds 


(4) 查看 命名 空间 描述 。 
describe namespace 命令 用 于 查看 指定 命名 空间 的 描述 。 例 如 ， 查 看 当前 hbase 命名 空 
间 的 描述 信息 : 
hbase (main) :021:0> describe namespace 'hbase' 
DESCRIPTION 
(NAME => 'hbase')] 
1 row(s) in 0.0170 seconds 
(5) 修改 命名 空间 。 
alter_namespace 命令 用 于 修改 命名 空间 属性 , 修改 的 方式 可 以 是 设 定 一 个 属性 以 及 属性 
也 可 以 是 取消 一 个 属性 。 
这 里 为 bigdata 设 定 两 个 属性 信息 ， 设 定 的 规则 为 {METHOD=>'sef'，'key=>"value"}， 
在 key 与 value 中 填充 要 设 定 的 属性 名 和 属性 值 : 


hbase (main):024:0» alter namespace 'bigdata', (METHOD => 'set', 'memo' => 
'big data') 
0 row(s) in 0.0930 seconds 


值 


数据 
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m 
hbase (main):025:0» alter namespace 'bigdata', (METHOD => 'set', 'createtime' 
=> '2016-01-30') 
0 row(s) in 0.0330 seconds 


hbase (main):026:0» describe namespace 'bigdata' 

DESCRIPTION 

(NAME => 'bigdata', createtime => '2016-01-30', memo => 'big data'] 
1 row(s) in 0.0100 seconds 


要 取消 已 设 定 的 属性 , 规则 为 {METHOD=>“unset”, NAME-- key"), 指定 取消 的 属性 名 ， 
填充 到 key: 
hbase (main):029:0» alter namespace 'bigdata', (METHOD => 'unset', NAME => 


'memo' ) 
0 row(s) in 0.0250 seconds 





hbase(main):030:0» describe namespace 'bigdata' 

DESCRIPTION 

(NAME => 'bigdata', createtime => '2016-01-30') 

1 row(s) in 0.0120 seconds 

(6) 删除 命名 空间 。 

drop namespace 命令 后 跟 要 删除 的 命名 空间 ， 执 行 成 功 后 ， 即 可 以 删除 指定 的 命名 空 
间 。 这 里 需要 注意 的 是 ， 删 除 前 ， 命 名 空间 里 面 要 没有 表 ， 如 果 命 名 空间 有 表 ， 则 先 要 手 
动 将 表 删 除 后 ， 再 执行 删除 命名 空间 的 操作 。 

这 里 我 们 删 掉 命名 空间 big: 

hbase (main) :036:0> drop_namespace 'big' 

0 row(s) in 0.0160 seconds 


hbase (main) :038:0» list namespace 
NAMESPACE 

bigdata 

default 

hbase 

3 row(s) in 0.0140 seconds 


6.33 REH 


HBase 的 表 管 理 对 应 于 前 面 提 到 的 DDL 命令 ， 它 定义 了 对 表 及 其 结构 的 操作 ， 包 括 表 
的 创建 、 结 构 修 改 、 表 的 停 用 、 表 的 删除 、 批 量 停 用 与 删除 表 等 。 
表 6-5 给 出 了 DDL 命令 清单 。 


表 6-5 DDL 命令 清单 

















命令 名 作 用 

alter | 修改 表 ， 包 括 增加 、 删 除 列 禾 、 修 改 压 缩 算法 

a 修改 表 的 属性 ， 如 MAX FILESIZE, MEMSTORE_FLUSHSIZE, READONLY 和 
T DEFERRED LOG FLUSH 等 

alter status — | 修改 表 的 状态 ， 如 修改 表 区 域 

me | 创建 表 ， 指 定 表 的 列 比 、 表 名 、 命 名 空间 创建 一 张 表 








describe 描述 表 ， 查 看 指定 表 的 结构 
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续 表 
命令 名 作 用 
disable 停 用 表 ， 将 指定 表 停 止 使 用 
disable all 停 用 指定 集合 的 所 有 表 ， 支 持 以 正则 表达 式 获取 表 集合 
drop 删除 表 ， 删 除 指定 的 表 ， 前 提 是 先 将 表 停 用 
enable 启用 表 ， 将 指定 的 表 启用 
drop all 删除 指定 集合 的 所 有 表 ， 支 持 以 正则 表达 式 获取 表 集 合 
enable all 启用 指定 集合 的 所 有 表 ， 支 持 以 正则 表达 式 获 取 表 集合 
exists 查看 表 是 否 存在 
get table 获取 指定 表 的 指针 
is disabled 判断 表 是 否 停 用 
is_enabled 判断 表 是 否 启用 
list 列 出 指定 表 的 信息 


查看 过 滤器 


show filters 


(1) 创建 表 。 

使 用 create 命令 能 够 创建 一 张 表 ， 需 要 指定 的 参数 包括 表 名 称 、 列 入 名称、 命名 空间 ， 
它 的 操作 语法 可 以 是 如 下 几 种 。 

(D create KEEK, IRAE L, IRAE L, FRAIR N o 

Q) create ‘命名 空间 : 表 名 称 ”, “ 列 簇 名 称 IL, IRAE L, IRAE N o 

© create RZF, (NAME => "FIR AER 1°’, NAME => ' 列 能 名 称 2,, VERSIONS — 1, 
TTL => 2592000, BLOCKCACHE => tme}， 可 以 指定 表 的 参数 信息 ， 如 版 本 数量 、TTL 等 。 

默认 创建 的 表 归属 于 default 命名 空间 ， 这 里 用 后 两 种 方法 创建 两 张 表 。 一 张 是 员工 信 
息 表 emp_tb， 归 属于 bigdata 命名 空间 ， 有 三 个 列 徐 ， 一 个 是 基本 信息 basic， 一 个 是 收入 
信息 income， 一 个 是 工作 信息 work; 另 一 张 是 员工 考勤 表 emp sign tb, A-SI, 考勤 
信息 sign。 











hbase(main):012:0» create 'bigdata:emp tb','basic','income','work' 
0 row(s) in 1.6340 seconds 


=> Hbase::Table - bigdata:emp tb 

hbase (main) :013:0> create 'bigdata:emp sign tb', 
(NAME-»'sign',VERSIONS-»'3'] 

0 row(s) in 0.2210 seconds 


=> Hbase::Table - bigdata:emp sign tb 

hbase (main) :014:0» list namespace tables 'bigdata' 
TABLE 

emp sign tb 

emp tb g 

2 row(s) in 0.0190 seconds 


通过 describe 命令 , 能够 查看 表 的 结构 。 查 看 上 面 创建 成 功 的 两 张 表 的 结构 以 及 当前 表 
的 状态 信息 ， 如 图 6-12 所 示 。 





eq) 3 acuptic suit 


_ 9 


hbase (main) :025:0> describe 'bigdata:emp sign tb" 
DESCRIPTION ENABLED 
'bigdata:emp sign tb', (NAME => 'sign', BLOOMFILTER => 'ROW', VERSIONS => '3', IN MEMORY => 'false', KEEP DELETED CEL true 
LS => 'false', DATA BLOCK ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN VERSIONS => '0', BLOCKCACH 

E => 'true', BLOCKSIZE => '65536', REPLICATION SCOPE => '0'] 

1 row(s) in 0.0290 seconds 








hbase (main) :026:0> describe 'bigdata:emp tb' 
DESCRIPTION ENABLED 
'bigdata:emp tb', [NAME => 'basic', BLOOMFILTER => 'ROW', VERSIONS => '1', IN MEMORY => 'false', KEEP DELETED CELLS = true 

> 'false', DATA BLOCK ENCODING => ‘NO! 'NONE', MIN VERSION: *0*, BLOCKCACHE => 

'true', BLOCKSIZE => '65536', REPL) 
N MEMORY => 'false', KEEP DELETED CE 
NONE', MIN VERSIONS => '0', BLOCKCACHE 时 *Q'), (NAME => 'work', B 
LOOMFILTER => 'ROW', VERSIONS => '1 £ f > 'false', DATA BLOCK ENCODING => 'NO 
NE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536', REPLIC 
ATION SCOPE => '0') 
1 row(s) in 0.0360 seconds 










6-12 ”查看 表 的 结构 信息 


通过 图 6-12 可 以 看 出 HBase 对 于 表 的 元 数据 描述 的 格式 ， 核 心 是 基于 列 艇 的 描述 ， 每 
个 列 欠 有 若干 属性 信息 。 以 emp tb 表 的 basic 列 簇 为 示例 ， 其 列 簇 中 所 涉及 的 属性 信息 以 
及 默认 的 值 如 下 所 示 : 

(NAME => 'basic', 

BLOOMFILTER => 'ROW', 

VERSIONS => '1', 

IN_MEMORY => 'false', 

KEEP_DELETED_CELLS => 'false', 

DATA BLOCK_ENCODING => 'NONE', 

TTL => 'FOREVER', 

COMPRESSION => 'NONE', 

MIN_VERSIONS => '0', 

BLOCKCACHE => 'true', 

BLOCKSIZE => '65536', 

REPLICATION_SCOPE => '0'} 


K 6-6 给 出 了 这 些 属性 信息 的 作用 ， 了 解 到 这 些 作 用 后 ,可 以 在 实际 工作 中 根据 需求 去 
进行 设置 。 
表 6-6 ” 表 列 入 的 参数 信息 


属性 名 fr 用 
NAME JUR A 
BLOOMFILTER 启用 何 种 方式 做 布 隆 过 滤 ， 可 以 不 启用 ， 填 充 NONE 
VERSIONS 版 本 数量 ， 存 储 份 数 ， 默 认为 1 
IN MEMORY 数据 保存 在 内 存 ， 用 于 提升 性 能 ，true 为 保存 ，false 为 不 保存 
KEEP DELETED CELLS 保留 被 删除 单元 格 的 数据 ，true 为 保留 ，false 为 不 保留 
DATA BLOCK ENCODING 数据 块 编码 方式 
TE 数据 生存 时 间 ， 单 位 为 秒 ， 默 认为 永 不 过 期 
COMPRESSION 压缩 算法 ， 默 认 无 压缩 ， 为 提高 存储 效率 ， 可 用 Snappy 压缩 算法 

















MIN VERSIONS 最 少 版 本 数量 ， 默 认为 0 
BLOCKCACHE 是 否 启 用 存储 块 缓存 


BLOCKSIZE 文件 存储 块 的 大 小 
数据 复制 范围 ， 默 认为 0， 为 禁止 ; 为 1 时 ， 可 向 指定 HBase 集群 
进行 数据 同步 复制 





REPLICATION SCOPE 
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TTL 与 MIN VERSIONS 

( TIL 为 0, X MIN VERSIONS 为 0, 则 到 期 后 ，HBase 为 自动 删除 本 单元 格 数据 ， 
因此 设置 时 要 慎重 。 

®© TIL 为 0， 若 MIN VERSIONS 为 1， 则 到 期 后 ， 默 认为 保留 时 间 最 新 的 数据 。 


Q) 修改 表 。 


通过 alter 等 命令 ， 可 以 修改 表 的 结构 ， 修 改 的 范围 ， 包 括 对 表 的 属性 信息 、 表 列 入 的 
新 增 、 删 除 等 。 


它 的 语法 如 下 所 示 。 

@ 取消 某 一 属性 : alter “命名 空间 : 表 名 称 ’, METHOD => “table_att_unset”, NAME => 
“属性 名 称 ”。 

© 设 定 某 一 属性 :alter “命名 空间 : 表 名 称 , METHOD = *table at", NAME => “属性 
ANC. 


© ”修改 表 的 某 属性 :alter “命名 空间 : 表 名 称 ', 属性 名 。 

© BARF: alter MAERA, NAME =>“ 属 性 名 1 RIRA DL, 
METHOD => HREF, NAME => “属性 名 2 或 列 簇 名称 2", METHOD =>' 操 作 符 *。 

这 里 针对 emp tb 表 中 的 basic 列 徐 ,将 其 版 本 数量 调整 为 3，TTL 值 调整 为 1000 $, 
如 下 所 示 : 


hbase (main) :002:0> alter 

'bigdata:emp tb',NAME-»'basic',VERSIONS-»'3',TTL-»'2000' 
Updating all regions with the new schema. 

0/1 regions updated. 


1/1 regions updated. 
Done. 
0 row(s) in 2.6370 seconds 


变更 后 的 效果 如 图 6-13 所 示 。 


hbase (main) :008:0> describe 'bigdata:emp tb' 
DESCRIPTION ENABLED 
"bigdata:emp tb', (NAME => 'basic', BLOOMFILTER => 'ROW', VERSIONS => '3', IN MEMORY => 'false', KEEP DELETED CELLS => 'fa true 
lse', DATA BLOCK ENCODING => 'NONE', TIL => '2000 | acc (33 MINUTES 20 SECONDS)", COMPRESSION => 'HONE', MIN VERSIONS => 
'0', BLOCKCACHE VERS 


' ", COMPRES 
SION => 'NONE', MIN VERSIONS => 'O', BLOCKCACHE => 'true', BLOCKSIZE => '65536', REPLICATION_SCOPE => '0'], {NAME => "work 
, BLOOMFILTER => 'ROW', VERSIONS => '1', IN MEMORY => 'false', KEEP DELETED CELLS => 'false', DATA BLOCK ENCODING => 'NON 
E', TIL => 'FOREVER', COMPRESSION => 'NONE', MIN VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536', REPLICATION_ 
SCOPE => '0'} 
1 row(s) in 0.0530 seconds 


图 6-13 ”修改 后 的 表 结构 
也 可 以 新 增 一 个 列 艇 ， 这 里 针对 emp sign tb 表 新 增 一 个 列 簇 test， 如 下 所 示 : 


hbase(main):010:0» alter 'bigdata:emp sign tb',NAME-»'test' 
Updating all regions with the new schema... 

0/1 regions updated. 

1/1 regions updated. 

Done. 

0 row(s) in 2.1680 seconds 


T 4 
n7 2) 
变更 后 的 效果 如 图 6-14 所 示 。 


hbase (main) :011:0> describe 'bigdata:emp sign tb' 

DESCRIPTION ENABLED 
"bigdata:emp sign tb', [NAME => 'sign', BLOOMFILIER => 'ROW', VERSIONS => '3', IN MEMORY => 'false', KEEP DELETED CELLS => true 
"false', DATA BLOCK ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN VERSIONS => '0', BLOCKCACHE => 'true 

*, BLOCKSIZE => '65536', REPLICATION SCOPE => '0'], [NAME => 'test', BLOOMFILTER => 'ROW', VERSIONS => '1', IN MEMORY => ' 

false', KEEP DELETED CELLS => 'false', DATA BLOCK ENCODING => 'NONE', TIL => 'FOREVER', COMPRESSION => 'NONE', MIN VERSION 

S => '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536', REPLICATION SCOPE => '0'] 

1 row(s) in 0.0350 seconds 





图 6-14 修改 后 的 表 结构 
删除 emp sign tb 表 新 增 的 列 簇 test， 如 下 所 示 : 


hbase (main) :012:0> alter 

'bigdata:emp sign tb',NAME-»'test' METHOD-»'delete' 
Updating all regions with the new schema... 

1/1 regions updated. 

Done. 

0 row(s) in 1.1500 seconds 


变更 后 的 效果 如 图 6-15 所 示 。 


hbase (main) :013:0> describe 'bigdata:emp sign tb' 

DESCRIPTION ENABLED 
'bigdata:emp_sign_tb', [NAME => 'sign', BLOOMFILTER => 'ROW', VERSIONS => '3', IN MEMORY => 'false', KEEP_DELETED_CELLS => true 
'false', DATA BLOCK ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN VERSIONS => 'Ü', BLOCKCACHE => 'true 

', BLOCKSIZE => '65536', REPLICATION_SCOPE => '0'] 

1 row(s) in 0.0380 seconds 


6-15 ”修改 后 的 表 结 构 


可 以 修改 表 的 属性 ， 如 修改 表 变 成 只 读 ， 修 改 表 的 范围 等 。 例如， 将 emp sign tb KÆ 
成 只 读 ， 设 定 一 个 列 簇 最 大 存储 空间 为 128MB， 相 关 的 操作 如 下 所 示 : 


hbase (main) :039:0> alter async 'bigdata:emp sign tb', READONLY 
Updating all regions with the new schema... 

0/1 regions updated. 

1/1 regions updated. 

Done. 

0 row(s) in 2.1140 seconds 

hbase(main):041:0» alter 'bigdata:emp sign tb', METHOD => 'table att', 
MAX FILESIZE => '134217728' 

Updating all regions with the new schema... 

0/1 regions updated. 

1/1 regions updated. 

Done. 

0 row(s) in 2.1390 seconds 


变更 后 的 效果 如 图 6-16 所 示 。 


hbase (main) :042:0> describe 'bigdata:emp_sign_tb' 

DESCRIPTION ENABLED 
» sign tb', {TABLE ATTRIBUTES => [MAX FILESIZE => '134217728'], [NAME => 'READONLY', BLOOMFILTER => , VERS true 

, IN MEMORY => 'false', KEEP DELETED CELLS => 'false', DATA BLOCK ENCODING => 'NONE', TIL => 'FOREVER', COMPRES 

NONE', MIN VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536', REPLICATION SCOPE => '0'], [NAME => 'sign 

', BLOOMFILTER => 'RON', VERSIONS => '3', IN MEMORY => 'false', KEEP DELETED CELLS => 'false', DATA BLOCK ENCODING => 'NON 

E', TIL => 'FOREVER', COMPRESSION => 'NONE', MIN VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536', REPLICATION 

SCOPE => '0'] 

1 row(s) in 0.0460 seconds 














图 6-16 ”修改 后 的 表 结构 


(3) 表 状 态 控制 。 
通过 enable. disable 命令 ， 可 以 控制 表 的 状态 ， 如 一 张 表 的 启用 或 停 用 ，enable all. 
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disable all 命令 可 针对 一 组 表 进 行 控制 ， 这 两 个 命令 支持 正则 表达 式 。 
例如 ， 将 表 emp sign tb 停 用 ， 然 后 再 启用 ， 操 作 如 下 : 


hbase (main):006:0> disable 'bigdata:emp sign tb' 

0 row(s) in 1.6930 seconds B zy 
hbase(main):008:0» is disabled 'bigdata:emp sign tb' 
true 

0 row(s) in 0.0310 seconds 

hbase(main):009:0» enable 'bigdata:emp sign tb' 

0 row(s) in 0.2550 seconds m 7 

hbase (main) :010:0> is_disabled 'bigdata:emp_sign_tb' 
false 

0 row(s) in 0.0210 seconds 


如 果 针 对 一 组 表 的 操作 ， 采 用 正则 表达 式 ， 如 将 前 缀 为 emp 的 所 有 表 停 用 ， 然 后 再 启 
操作 如 下 (这 里 注意 正则 表达 式 的 写法 是 emp.*): 
hbase (main) :035:0> disable all 'bigdata:emp.*' 


bigdata:emp sign tb 
bigdata:emp tb 





B 





Disable the above 2 tables (y/n)? y 
2 tables successfully disabled 


hbase (main) :043:0» enable all 'bigdata:emp.*' 
bigdata:emp sign tb 
bigdata:emp tb 


Enable the above 2 tables (y/n)? y 
2 tables successfully enabled 


[ras | 


表 的 修改 。 
© 对 表 进 行 alter 修改 时 ， 通 常 建 议 先 停 用 该 表 ， 完 成 修改 后 再 启用 。 
Q 表 在 修改 前 ， 对 重要 数据 做 好 备份 是 良好 的 习惯 。 


(4) 表 清 单 。 

list 可 列 出 HBase 的 所 有 用 户 数据 表 清 单 ， 默 认 执行 时 ， 会 列 出 全 部 的 用 户 数据 表 ， 由 
于 list 命令 支持 正则 表达 式 ， 因 此 ， 也 可 以 通过 正则 语法 获取 满足 条 件 的 表 清 单 。 

例如 ， 使 用 list 列 出 全 部 表 ， 使 用 list 的 正则 模式 ， 列 出 命名 空间 bigdata 中 所 有 的 表 : 


hbase (main) :121:0> list 
TABLE 

bigdata:emp sign tb 
bigdata:emp tb  — 
testhbase 

3 row(s) in 0.0090 seconds 


=> ["bigdata:emp sign tb", "bigdata:emp tb", "testhbase"] 
hbase(main):122:0» list 'bigdata:.*' 

TABLE 

bigdata:emp sign tb 

bigdata:emp tb  — 

2 row(s) in 0.0090 seconds 





数据 


EA SS A IER IESU Esc 


—9 


=> ["bigdata:emp sign tb", "bigdata:emp tb"] 


(5) 删除 表 。 


命令 drop. drop all 可 删除 表 ， 表 被 删除 的 前 提 是 已 被 停 用 。 还 有 一 条 命令 get table 





用 于 获取 表 的 操作 句柄 ， 类 似 于 表 指 针 ， 能 够 简化 实际 命令 操作 。 


例如 ， 新 建 一 张 表 test， 然 后 借助 于 get table 指向 tt, H tt JEFE pede HO E RH. WMR 





作 ， 如 下 所 示 : 


hbase (main) :044:0> create 'bigdata:test','f1' 


0 row(s) in 0.4530 seconds 


=> Hbase::Table - bigdata:test 


hbase (main) :045:0> tt = get_table 'bigdata:test' 


0 row(s) in 0.0040 seconds 


=> Hbase::Table - bigdata:test 


hbase (main) 
0 row(s) in 


hbase (main) 
0 row(s) in 


hbase (main) 


:049:0» 
1.3200 


:050:0» 
0.2290 


:052:0> 


Table bigdata:test 


0 row(s) in 


0.0240 


tt.disable 
seconds 


tt.drop 
seconds 


exists 'bigdata:test' 
does not exist 
seconds 


6.4 HBase 的 数据 管理 





























数据 管理 对 应 于 HBase 的 DML 命令 ， 它 定义 了 对 数据 的 添加 、 修 改 、 删 除 、 查 询 、 统 
计 等 操作 。 表 6-7 给 出 了 DML 命令 清单 。 
36-7 DM 命令 清单 
命令 名 

append 对 指定 的 单元 格 的 值 后 面 追加 数据 

count 统计 指定 表 、 行 、 列 的 记录 数 

delete 删除 指定 的 数据 单元 

deleteall 删除 指定 的 行 

get 获得 指定 的 数据 单元 或 者 行 的 内 容 

get counter 获取 指定 单元 格 的 计数 器 的 值 

incr 对 指定 单元 格 进行 自 增 

put 提交 单元 格 数据 

scan 全 表 扫 描 查 找 数据 

truncate 先 删除 指定 的 表 再 重建 

truncate preserve 保留 原 表 区 域 的 前 提 下 删除 指定 的 表 再 重建 
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6.4.1 数据 的 添加 


put 命令 可 用 于 添加 一 个 单元 格 的 数据 ， 它 的 使 用 原理 是 通过 表 名 、 行 键 值 、 列 名 定位 
一 个 单元 格 ， 为 这 个 单元 格 填充 数据 。 

它 的 语法 如 下 所 示 。 

(1) put “命名 空间 : 表 名 称 , ITE, “ 列 簇 : 列 名 *, FE o 

(2) put “命名 空间 : 表 名 称 ', ITE, IRIA, Jr, 时 间 戳 。 

(3) put “命名 空间 : 表 名 称 ”, ATE., “ 列 簇 : 列 名 ”, FME, (ATTRIBUTES ( Bog XU 
值 '=>“ 自 定义 值 "}}。 

(4) tput TEE, IIR, FHE. (C 代表 获取 表 的 指针 ) 

例如 ， 向 emp_sign tb 表 添加 如 表 6-8 所 示 的 数据 。 

















表 6-8 员工 出 勤 表 








emp sign tb 表 
f; RA Hj jB) gx sign 列 簇 (column famil 
(Row Key) (TimeStamp) F201601 F201602 F201603 
(员工 姓名 
sandara | 20160201 |235 | | 
ooi | o | 
Tom xo — | | 
owed | jp | 
Jim zw — [m — — [| — | 
[200 | [20 | 


该 表 中 的 行 键 值 为 姓名 字段 ; 每 月 实际 出 勤 次 数字 段 ， 以 Fyyyymm 的 格式 进行 动态 增 
加 ，yyyy 代表 年 份 ，mm 代表 月 份 。 其 中 第 一 行 的 standard 代表 当月 的 法 定 出 勤 工 作 日 。 
根据 上 述 信息 ， 操 作 命令 如 下 。 


hbase(main):027:0» 七 = get table 'bigdata:emp sign tb' 
0 row(s) in 0.0330 seconds 





=> Hbase::Table - bigdata:emp sign tb 

hbase (main) :029:0> t.put 'standard','sign:F201601','25',20160201 
0 row(s) in 0.7460 seconds 

hbase (main) :030:0> t.put 'standard','sign:F201602','20',20160301 
0 row(s) in 0.0130 seconds 

hbase (main) :031:0> t.put 'Tom','sign:F201601','20',20160201 

0 row(s) in 0.0070 seconds 

hbase (main) :032:0> t.put 'Tom','sign:F201602','19',20160301 

0 row(s) in 0.0060 seconds 

hbase (main) :033:0> t.put 'Jim','sign:F201601','21',20160201 

0 row(s) in 0.0130 seconds 

hbase (main) :034:0> t.put 'Jim','sign:F201602','20',20160301 

0 row(s) in 0.0040 seconds 

通过 scan 命令 ， 查 看 emp_sign tb 表 的 所 有 记录 。 


hbase (main) :044:0> t.scan 


Rl 从 基础 理论 到 最 佳 实践 


value=19 
standard 

value=25 
standard 

value=20 


COLUMN+CELL 


column=sign:F201601, timestamp=20160201, 


column-sign:F201602, timestamp-20160301, 
column-sign:F201601, timestamp-20160201, 
column-sign:F201602, timestamp-20160301, 
column-sign:F201601, timestamp-20160201, 


column-sign:F201602, timestamp-20160301, 


3 row(s) in 0.0580 seconds 


关于 本 例 中 的 put 命令 。 
@ 本 例 中 的 列 是 动态 增加 的 ， 且 使 用 时 不 需要 提前 声明 。 


Q 


行 键 值 的 选取 要 极为 慎重 ， 防 止 出 现 重复 等 情况 。 


G 时间 鹤 不 需要 用 引号 括 起 来 ， 如 果 不 填充 ， 系 统 会 自动 添加 。 


6.4.2 ”数据 的 追加 


append 命令 用 于 向 指定 的 单元 格 后 面 追 加 数据 ， 如 果 上 单元 格 不 存在 ， 则 直接 添加 ， 
如 果 存 在 ， 则 将 数据 追加 到 原 值 后 面 。 


它 的 语法 如 下 


o 


(1) append “命名 空间 : 表 名 称 ", TE, IEIR, IUR- 
Q) append 命名 空间 : 表 名 称 ': 行 键 值 '' 列 能 : 列 名 ,，' 列 值 '，{ATTRIBUTES->{" 自 定 








义 键 值 一 > 











定义 值 }}。 


(3) t append 4T E (EU, “ 列 簇 : 列 名 *, FUE (t 代表 获取 表 的 指针 )。 

为 了 方便 理解 ， 这 里 安排 一 个 这 样 的 示例 ， 向 emp sign tb 表 加 入 一 条 新 的 用 户 记录 
Jack， 他 的 201601 考勤 是 21 天 ，201602 的 考勤 是 18 天 ， 由 于 添加 失误 ， 他 的 201601 写 
成 了 2 天 ，201602 写成 了 1 天。 这 里 通过 append 命令 进行 纠正 ， 分 别 再 添加 0、8。 


操作 如 下 所 示 


hbase (main): 
0 row(s) in 
hbase (main): 
0 row(s) in 
hbase (main): 
ROW 

Jack 
value=2 

Jack 
value=1 


hbase (main) : 
0 row(s) in 
hbase (main) : 
0 row(s) in 


050:0> 
0.0070 
051:0> 
0.0070 
052:0> 


053:0> 
0.0080 
054:0> 
0.0040 


t.put 'Jack','sign:F201601','2',20160201 
seconds 
t.put 'Jack','sign:F201602','1',20160301 
seconds 
t.scan 
COLUMN-«CELL 
column-sign:F201601, timestamp-20160201, 


column-sign:F201602, timestamp-20160301, 


t.append 'Jack','sign:F201601','0" 
seconds 
t.append 'Jack','sign:F201602','8" 
seconds 
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hbase (main):055:0» 七 .scan 


ROW COLUMN-4CELL 

Jack column-sign:F201601, 
timestamp-1455696906196, value-20 

Jack column-sign:F201602, 


timestamp-1455696913859, value-18 





(D append 针对 数据 的 修改 提供 了 一 种 追加 的 方法 。 
© 数据 追加 后 ， 要 注意 时 间 丽 默认 会 修改 。 


6.4.3 ”数据 的 获取 


get 命令 通过 指定 的 表 、 行 、 列 艇 或 列 获取 某 一 行 或 某 一 列 和 能 、 某 一 单元 格 的 数据 ，get 
命令 对 应 于 put 命令 ， 均 属于 针对 单行 的 数据 操作 。 
它 的 基本 语法 如 下 所 示 : 
€ get “命名 空间 : 表 名 ”, “ 行 键 值 ", JR. 
€ ge “命名 空间 : 表 名 ”, ITE, JEI o 
@ get “命名 空间 : 表 名 ”, ITE, (COLUMN => SPP, TIMERANGE = [ts], ts2], 
VERSIONS => 2}. 
€ get “命名 空间 : 表 名 ”, “ 行 键 值 ', {FILTER => “ValueFilter(=, ‘binary:abc’)”} o 
€ get MAERA, ITE, {COLUMN => [sx 1: 列 pb, AR 2: 列 v]. 
ATTRIBUTES => {* 自 定义 键 值 =>' 自 定义 数据 '}}。 
€ tget TE, MIU. 
从 语法 中 可 以 看 出 ， 除 了 表 、 行 、 列 徐 、 列 之 外 ， 还 可 以 通过 时 间 玲 、 版 本 号 、 过 滤 
器 、 自 定义 标签 等 作为 检索 条 件 ， 获 取 满足 要 求 的 数据 。 
(1) 获取 行 数据 。 
通过 行 键 值 ， 可 以 获取 指定 行 的 全 部 列 徐 数据， 这 里 获取 emp sign tb 表 中 的 Jack 的 
全 部 考勤 记录 : 


hbase(main):001:0» 七 = get table 'bigdata:emp sign tb' 
0 row(s) in 0.5270 seconds 





=> Hbase::Table - bigdata:emp sign tb 
hbase (main) :020:0> t.get 'Jack' 


COLUMN CELL 
sign:F201601 timestamp-1455696906196, value-20 
sign:F201602 timestamp-1455696913859, value-18 


2 row(s) in 0.0230 seconds 


Q) 获取 列 复数 据 。 

通过 参数 直接 指定 行 键 值 ， 会 列 出 该 行 所 有 的 记录 ， 在 有 的 时 候 ， 一 张 表 可 能 包括 多 
个 列 徐 ， 不 需要 列 出 全 部 的 列 徐 ， 这 里 也 可 以 通过 加 入 列 簇 参数 进行 控制 ， 显 示 关 注 的 列 
R WFR, RREK sign 列 簇 中 的 所 有 数据 : 


«d 从 基础 理论 到 最 佳 实践 


hbase (main) :021:0> t.get 'Jack','sign' 


COLUMN CELL 
sign:F201601 timestamp-1455696906196, value-20 
sign:F201602 timestamp-1455696913859, value-18 


2 row(s) in 0.0180 seconds 


(3) 获取 列 数据 。 

同 理 ， 也 可 以 只 关注 于 列 簇 中 某 一 列 ， 或 者 某 几 列 的 数据 。 例 如 ， 关 注 某 一 列 的 数据 
操作 ， 如 下 所 示 : 

hbase (main) :029:0> t.get 'Jack','sign:F201601' 

COLUMN CELL 

sign:F201601 timestamp-1455696906196, value-20 

1 row(s) in 0.0120 seconds 

(4) 获取 列 集合 数据 。 

关注 某 几 列 的 信息 ， 通 过 [] 符 号 将 关注 的 列 清 单 括 起 来 。 例 如 ， 可 能 需要 关注 不 同 列 艇 
的 几 个 列 ， 可 以 将 其 组 成 一 个 集合 进行 获取 ， 如 下 所 示 : 


hbase (main):030:0» t.get 
'Jack',['sign:F201601','sign:F201602','sign:F201603'] 


COLUMN CELL 
sign:F201601 timestamp-1455696906196, value-20 
sign:F201602 timestamp-1455696913859, value-18 


2 row(s) in 0.0290 seconds 


(5) 获取 多 版 本 数据 。 
在 获取 数据 时 ， 也 可 以 通过 加 入 版 本 这 个 过 滤 条 件 ， 获 取 最 近 几 次 的 更 新 情况 。 例 如 ， 
针对 Jack 这 一 行 ， 做 过 两 次 数据 提交 ， 可 以 查看 历次 提交 的 信息 ， 进 行 比 对 : 


hbase (main) :058:0> t.get 'Jack',(COLUMN-»['sign:F201601'],VERSIONS-»2) 


COLUMN CELL 
sign:F201601 timestamp=1455696906196, value=20 
sign:F201601 timestamp=20160201, value=2 


2 row(s) in 0.0120 seconds 





关于 多 版 本 的 意义 。 

O 利于 数据 的 安全 性 审计 ,保留 菜单 元 格 的 多 版 本 数据 ， 可 以 事后 审计 ， 发 现 有 无 
非法 的 修改 。 

© ”利于 数据 的 灾 备 恢复 与 回 滚 。 可 以 列 出 最 近 几 次 的 修改 ， 若 发 现 最 新 数据 更 新 不 
正确 ， 则 可 以 回 滚 到 最 近 一 次 或 最 近 几 次 的 修改 。 


(6) 通过 时 间 惟 获取 数据 。 
通过 单个 时 间 惟 ， 可 以 获取 该 行 在 这 一 时 间 点 上 修改 的 所 有 列 ， 这 里 获取 时 间 惟 为 
201601 的 Jack 数据 : 


hbase (main):067:0» 七 .get 'Jack',{TIMESTAMP=>20160201} 
COLUMN CELL 

sign:F201601 timestamp-20160201, value-2 
1 row(s) in 0.0130 seconds 
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通过 时 间 区 间 ， 可 以 获取 一 定时 间 范 围 内 的 该 行列 数据 ， 需 要 使 用 的 关键 字 是 
TIMERANGE。 这 里 获取 20160201、20160304 之 间 的 数据 ， 如 下 所 示 : 


hbase (main) :066:0> t.get 'Jack',(TIMERANGE-»[20160201,2016020304]) 





COLUMN 
sign:F201601 
sign:F201602 





CELL 
timestamp-20160201, value-2 
timestamp-20160301, value-1 


2 row(s) in 0.0120 seconds 


(D) 通过 过 滤器 获取 数据 。 


HBase 中 提供 了 过 滤器 功能 , 过 滤器 属于 对 数据 结果 集合 的 符合 性 筛选 , 这 对 于 海量 信 
息 查 询 与 分 析 非 常 重要 ， 引 入 过 滤器 ， 可 以 更 丰富 地 控制 数据 结果 的 抽取 。 
命令 show filters 可 以 查看 HBase 当前 支持 的 过 滤器 清单 ， 如 下 所 示 : 


hbase (main) :084:0> show filters 





DependentColumnFilter 
KeyOnlyFilter 
ColumnCountGetFilter 


SingleColumnValueFilter 


PrefixFilter 


SingleColumnValueExcludeFilter 


FirstKeyOnlyFilter 
ColumnRangeFilter 
TimestampsFilter 
FamilyFilter 
QualifierFilter 
ColumnPrefixFilter 
RowFilter 


MultipleColumnPrefixFilter 


InclusiveStopFilter 
PageFilter 
ValueFilter 


ColumnPaginationFilter 


通过 HBase FLU HgibgEss. PAKIT A JU. fü HEREDI GR EBRE o 
结合 show filters 的 输出 ， 表 6-9 给 出 了 这 些 过 滤器 的 作用 。 


表 6-9 过 滤器 的 作用 









































名 称 作 用 
DependentColumnFilter 以 某 一 列 为 参照 ， 去 过 滤 其 他 列 
KeyOnlyFilter 返回 表 中 每 行 的 行 键 值 
返回 表 中 每 行 最 多 返回 多 少 列 ， 当 在 一 行 中 返回 的 列 数 超过 设 
ColumnCountGetFilter 
定 的 值 时 ， 则 结束 扫描 
SingleColumnValueFilter 基于 某 一 列 的 值 来 判断 是 否 返 回 当前 行 的 数据 
PrefixFilter 基于 行 键 值 与 特定 前 绥 的 匹配 度 ， 来 确定 该 行 是 否 返 回 数 据 
SingleColumnValueExcludeFilter 返回 不 符合 过 滤 列 条 件 的 行 数 据 
FirstKeyOnlyFilter 返回 结果 集中 的 第 一 列 数 据 
ColumnRangeFilter 返回 满足 列 区 间 条 件 的 行 数 据 
RowFilter 返回 满足 条 件 的 所 有 行 数据 
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续 表 
名 称 作 用 
MultipleColumnPrefixFilter 返回 满足 多 个 列 前 缀 的 行 数据 
InclusiveStopFilter 设置 开始 与 结束 行 键 值 ， 返 回 这 个 区 间 内 的 行 数 据 
PageFilter 设置 行 分 页 提升 查询 性 能 ， 每 次 返回 指定 数量 的 记录 数据 
ValueFilter 以 具体 的 值 来 得 选单 元 格 
ColumnPaginationFilter 设置 列 分 页 ， 提 升 查询 性 能 ， 每 次 返回 指定 数量 的 列 数据 














下 面 的 示例 中 , 采用 ValueFilter 过 滤器 , 通过 该 过 滤器 来 列 出 Jack 完成 20 天 考勤 的 月 
份 清单 ， 如 下 所 示 : 

hbase (main) :086:0> t.get 'Jack',(FILTER => "ValueFilter(-, 'binary:20')") 

COLUMN CELL 


sign:F201601 timestamp-1455696906196, value-20 
1 row(s) in 0.0120 seconds 


6.444 数据 统计 


count 命令 用 于 记录 行 数 的 统计 ， 使 用 方法 比较 简单 ， 指 定 表 名 ， 可 以 统计 该 表 拥有 多 
少 行 ， 如 下 所 示 : 


hbase (main) :144:0> t.count 
5 row(s) in 0.0050 seconds 
=> 5 


对 于 大 部 分 HBase 业务 数据 表 而 言 ， 其 记录 是 海量 的 ,因此 , 在 执行 cout 命令 对 全 表 
统计 时 会 非常 耗 时 、 耗 资源 ， 在 count 命令 中 也 提供 了 两 个 优化 选项 ， 一 个 是 interval, B 
设置 统计 多 少 行 后 显示 一 次 对 应 的 rowkey， 这 个 参数 默认 值 1000; 另外 一 个 是 cache, Hl 
每 次 去 取 的 缓存 行 数 ， 默 认为 10 条 。 

示例 中 , 分 别 调整 [interval=>1, cache=>1]、 [interval=>2, cache=>5] 查 看 各 自 统计 的 结果 ， 
如 下 所 示 : 

hbase (main) :145:0> 七 .count INTERVAL-»1,CACHE-»1 

Current count: 1, row: Jack 

Current count: 2, row: Jim 

Current count: 3, row: Tom 

Current count: 4, row: standard 

Current count: 5, row: tt 

5 row(s) in 0.0090 seconds 

-» 5 

hbase (main):150:0» t.count INTERVAL-»2,CACHE-»5 

Current count: 2, row: Jim 

Current count: 4, row: standard 


5 row(s) in 0.0080 seconds 
=> 5 


小 提示 


关于 统计 性 能 。 
(D 使 用 count 命令 ， 如 果 表 中 各 行 空间 占用 不 多 ， 可 以 提高 cache 大 小 ， 提 高 性 能 ; 
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另外 ， 适 度 调 整 interval 值 ， 可 以 获取 性 能 提升 。 

© 在 创建 表 时 指定 Coprocessor 参数 ， 可 以 驱动 各 RegionServer 分 头 统计 目标 表 各 
Region 中 的 行 数 ， 能 够 比较 快 地 获取 结果 。 

© ”对 于 不 频繁 的 统计 任务 ， 可 以 编写 MapReduce 任务 去 执行 。 


6.4.5” 表 的 扫描 


scan 用 于 全 表 数 据 扫 描 ， 可 以 返回 一 张 表 的 所 有 数据 ， 也 可 以 根据 多 维 过 滤 条 件 ， 如 
TIMERANGE, FILTER, LIMIT. STARTROW, STOPROW, TIMESTAMP, MAXLENGTH, 
COLUMNS, CACHE 等 ， 返 回 指定 的 结果 集 。 
它 的 基本 语法 如 下 所 示 : 
€ scan “命名 空间 : 表 名 称 *。 
€ scan “命名 空间 : 表 名 称 , (COLUMNS => JU: Fl") o 
€ scan MEZIRE, {COLUMNS => IA, I:A], LIMIT => 10, 
STARTROW => *xyz'. 

€ scan “命名 空间 : 表 名 称 ”, (FILTER => ColumnPaginationFilter.new(1, 0)) 。 

€ scan “命名 空间 : 表 名 称 ', (COLUMNS => “ 列 簇 : 列 ", TIMERANGE => [1303668814, 
1303669904]}。 

(1) 获取 行 数据 。 

通过 表 名 称 ， 返 回 全 部 记录 ， 这 里 获取 emp sign tb 表 中 的 所 有 用 户 的 考勤 记录 ， 如 下 





所 示 : 
hbase (main) :019:0> scan 'bigdata:emp sign tb' 
ROW COLUMN+CELL 
Jack column=sign:F201601, timestamp=1455696906196, value=20 
Jack column=sign:F201602, timestamp=1455696913859, value=18 
Jim column=sign:F201601, timestamp=20160201, value=21 
Jim column=sign:F201602, timestamp=20160301, value=20 
Tom column=sign:F201601, timestamp=20160201, value=20 
Tom column=sign:F201602, timestamp=20160301, value=19 
standard column=sign:F201601, timestamp=20160201, value=25 
standard column=sign:F201602, timestamp=20160301, value=20 


4 row(s) in 0.0260 seconds 


(2) 获取 列 数据 。 
获取 表 中 指定 列 的 数据 ， 这 里 获取 sign 列 簇 中 201602 的 考勤 记录 ， 如 下 所 示 : 


hbase (main) :021:0> scan 'bigdata:emp sign tb',{COLUMN=>'sign:F201602'} 
ROW 


COLUMN-«CELL 
Jack column-sign:F201602, timestamp-1455696913859, value-18 
Jim column-sign:F201602, timestamp-20160301, value-20 
Tom column-sign:F201602, timestamp-20160301, value-19 
standard column-sign:F201602, timestamp-20160301, value-20 


4 row(s) in 0.0250 seconds 

(3) 限制 输出 行 数 。 

通过 limit n 参数 , 可 以 设置 输出 的 行 数 , 只 限于 前 nm 行 记录 返回 ,这 里 返回 表 中 201601、 
201602 两 个 月 份 的 前 2 行 记录 ， 如 下 所 示 : 


hbase (main) :023:0> scan 
'bigdata:emp sign tb',(COLUMN-»['sign:F201601','sign:F201602'],LIMIT-22) 
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ROW COLUMN-4CELL 

Jack column-sign:F201601, timestamp-1455696906196, value-20 
Jack column-sign:F201602, timestamp-1455696913859, value-18 
Jim column-sign:F201601, timestamp-20160201, value-21 

Jim column-sign:F201602, timestamp-20160301, value-20 


2 row(s) in 0.0390 seconds 


(4) 获取 多 版 本 数据 。 


通过 VERSIONS 参数 ， 可 以 获取 多 版 本 数据 ， 


数据 信息 : 


hbase (main) :026:0> scan 


'bigdata:emp sign tb',(COLUMN-»['sign:F201601', 


LIMIT=>2 , VERSIONS=>3} 





这 里 返回 前 2 行 ， 每 行 3 个 最 近 版 本 的 


'sign:F201602'], 


ROW COLUMN-*CELL 

Jack column-sign:F201601, timestamp-1455696906196, value-20 
Jack ign:F201601, timestamp-20160201, value-2 

Jack ign:F201602, timestamp-1455696913859, value-18 
Jack ign:F201602, timestamp-20160301, value-1 

Jim ign:F201601, timestamp-20160201, value-21 

Jim column-sign:F201602, timestamp-20160301, value-20 


2 row(s) in 0.0240 seconds 


hbase (main) :027:0» 


(5) 获取 逆向 排序 数据 。 


通过 REVERSED 参数 ， 可 以 控制 结 


吉 果 集 正 向 还 是 逆向 输出 ,默认 输出 方式 基于 字母 表 


顺序 正 序 输出 ， 如 果 将 REVERSED 置 为 tue， 则 输出 变 成 逆向 。 这 里 输出 全 表 ， 读 者 可 以 
与 前 面 的 scan *bigdata:emp sign tb’ 命令 结果 进行 对 比 : 


hbase (main) :030:0> scan 'bigdata:emp sign tb', 






(REVERSED-?TRUE] 


ROW COLUMN-«CELL 

standard column-sign:F201601, timestamp-20160201, value-25 
standard column-sign:F201602, timestamp-20160301, value-20 

Tom ign:F201601, timestamp-20160201, value-20 

Tom ign:F201602, timestamp- 20160301, value-19 

Jim :F201601, timestamp-20160201, value-21 

Jim :F201602, timestamp-20160301, value-20 

Jack ign:F201601, timestamp-1455696906196, value-20 
Jack column-sign:F201602, timestamp-1455696913859, value-18 


5 row(s) in 0.0260 seconds 


(6) 通过 时 间 恰 获取 数据 。 
通过 设 定时 间 区 间 ， 用 于 获取 满足 条 件 的 所 有 记录 。 这 里 获取 20160301. 20160304 之 


间 的 数据 ， 如 下 所 示 : 


hbase (main) :033:0> scan 
'bigdata:emp sign tb', {REVERSED=>FALSE,TIMERANGE=>[20160 


301,2016020304]} 





ROW COLUMN+CELL 
Jack column-sign:F201602, timestamp-20160301, value-1 
Jim i 2, timestamp-20160301, value-20 
Tom 2, timestamp-20160301, value-19 
standard column-sign:F201602, timestamp-20160301, value-20 


4 row(s) in 0.0120 seconds 


(7) 通过 过 滤器 获取 数据 。 
采用 FILTER， 可 以 非常 方便 地 查询 结果 集 。 这 里 以 PrefixFilter 过 滤器 为 例 ， 返 回首 字 
母 为 J 的 所 有 员工 考勤 信息 ， 如 下 所 示 : 


hbase (main):038:0» scan 'bigdata:emp sign tb',(FILTER —» "(PrefixFilter 
Cg) 
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ROW COLUMN-4CELL 

Jack column-sign:F201601, timestamp-1455696906196, value-20 
Jack column-sign:F201602, timestamp-1455696913859, value-18 
Jim column-sign:F201601, timestamp-20160201, value-21 





Jim column-sign:F201602, timestamp-20160301, value-20 
2 row(s) in 0.0190 seconds 


6.4.6 ”数据 的 删除 


delete 命令 用 于 删除 某 一 单元 格 数据 ， 删 除 时 ， 需 要 指定 表 名 、 行 键 值 、 列 名 ， 以 及 时 
间 惟 ， 即 可 以 精确 控制 删除 本 列 中 某 一 版 本 的 数据 。 

例如 ， 表 emp sign tb 的 Jack 行 中 sign:F201601 列 的 20160201 时 间 惟 单元 格 数据 有 问 
题 要 删除 ， 这 里 执行 删除 操作 ， 如 下 所 示 : 


hbase (main) :043:0> scan 'bigdata:emp sign tb',(VERSIONS-»3) 





ROW COLUMN4CELL 

Jack column-sign:F201601, timestamp-1455696906196, value-20 
Jack column-sign:F201601, timestamp-20160201, value-2 

Jack column-sign:F201602, timestamp-1455696913859, value-18 
Jack column-sign:F201602, timestamp-20160301, value-1 


hbase (main):044:0» delete 
'bigdata:emp sign tb','Jack','sign:F201601',20160201 


0 row(s) in 0.0840 seconds 


hbase (main):045:0» scan 'bigdata:emp sign tb',(VERSIONS-»3) 





ROW COLUMN+CELL 

Jack column=sign:F201601, timestamp=1455696906196, value=20 
Jack column-sign:F201602, timestamp-1455696913859, value-18 
Jack column-sign:F201602, timestamp-20160301, value-1 


deleteall 命令 可 以 删除 整 行 , 通过 指定 表 名 、 行 键 值 , 即 可 完成 删除 操作 , 这 里 假设 Jim 
员工 离职 ， 需 要 删除 其 所 有 考勤 记录 ， 操 作 如 下 : 


hbase (main) :046:0> deleteall 'bigdata:emp sign tb','Jim' 
0 row(s) in 0.0100 seconds 
hbase (main) :047:0> scan 'bigdata:emp sign tb' 





ROW COLUMN+CELL 

Jack column=sign:F201601, timestamp=1455696906196, value=20 
Jack column=sign:F201602, timestamp=1455696913859, value=18 
Tom column=sign:F201601, timestamp=20160201, value=20 

Tom column=sign:F201602, timestamp=20160301, value=19 
standard column=sign:F201601, timestamp=20160201, value=25 
standard column=sign:F201602, timestamp=20160301, value=20 


3 row(s) in 0.0170 seconds 


6.4.7” 表 的 重建 


(1) truncate 命令 用 于 表 的 重建 ， 本 命令 重建 的 过 程 等 价 于 : 表 的 停 用 、 表 的 删除 、 表 
的 创建 ， 这 里 以 emp sign tb 为 例 ， 重 建 这 张 表 ， 操 作 如 下 所 示 : 


hbase (main) :048:0> truncate 'bigdata:emp sign tb' 

Truncating 'bigdata:emp sign tb' table (it may take a while): 
- Disabling table... 

- Dropping table... 

- Creating table... 

0 row(s) in 1.9760 seconds 


Au 
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hbase(main):049:0» scan 'bigdata:emp sign tb' 


ROW COLUMN-4CELL 
0 row(s) in 0.0200 seconds 


Q) 保留 数据 区 域 的 重建 。 

truncate preserve 也 用 于 表 的 重建 ， 但 与 truncate 不 同 的 是 ， 执 行 本 命令 重建 表 时， 会 
保留 表 原 有 的 Region. 

以 emp sign tb 为 例 ， 在 上 一 步 重 建 后 ， 当 前 HBase 所 拥有 的 总 Region 数目 为 7， 当 
前 的 emp sign tb 的 Region 编号 为 968593698f9ee4ec88af0daab8924b53， 如 图 6-17 所 示 。 


Master jz23d4by1laz 


Region Servers 


Memo  Requess storefles Compactors 


ServerName Start time Requests Per Second Num. Regions 
iZ23d4by1laZ.60020, 1456904989052 Wed Mar 02 15:49:49 CST 2016 0 了 
Total1 0 7 
Table Attributes 
Attribute Name. Value Description 
Enabled true Is the table enabled 
Compaction NONE Is the table compacting 
Table Regions 
Name Region Server StartKey EndKey Requests 
bigdata:emp sign tb,,1456922754094 968593698/9ee4ec88af0daab8924b53. iZ23d4by1laZ:60020 0 


Regions by Region Server 
Region Server Region Count 


图 6-17 重建 前 的 状态 
执行 完 表 的 数据 添加 ， 通 过 重建 后 ， 相 关 命 令 的 运行 效果 如 下 所 示 : 


hbase(main):017:0» 七 = get table 'bigdata:emp sign tb' 
0 row(s) in 0.0060 seconds 


=> Hbase::Table - bigdata:emp sign tb 

hbase(main):018:0» t.put 'xxx' m 'sign:F201601' ,'20',20160201 

0 row(s) in 0.0260 seconds 

hbase (main) :019:0> t.scan 

ROW COLUMN+CELL 

XXX column=sign:F201601, timestamp=20160201, value=20 
1 row(s) in 0.0090 seconds 

hbase (main) :020:0> truncate preserve 'bigdata:emp sign tb' 
Truncating 'bigdata:emp sign tb' table (it may take a while): 

- Disabling table... 


- Dropping table... 


- Creating table with region boundaries... 


0 row(s) in 1.6970 seconds 
hbase (main):021:0» t.scan 
ROW 

0 row(s) in 0.0380 seconds 
hbase (main):022:0» 


COLUMN-«CELL 
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表 重 建 后 ， 可 以 发 现 ，Region 的 数目 没有 变 ， 而 此 时 新 的 emp_sign tb 表 的 Region 编 
号 已 变 成 b67a4dea80dd7c3d2495fbb0c798bfb1， 如 图 6-18 所 示 。 


Master iz23d4by1laz 


Region Servers 


[Evemoy Requests — sorenes — Compactions 


ServerName Start time Requests Per Second Num. Regions 
iZ23d4by1laZ,80020,1456904989052 Wed Mar 02 1549:49 CST 2016 0 Y 
Total 0 了 
Table Attributes 
Attribute Name Value Description 
Enabled true Is the table enabled 
Compaction NONE Is the table compacting 
Table Regions 
Name 


bigdata:emp_sign_tb,, 1458922965530 b67a4dea80dd7c3d2495fbb0c798bfbi 


Regions by Region Server 
Region Server 


1Z23d4by1laz.60020 


Region Server 


iZ23d4by!la7:60020 


Region Count 


1 


图 6-18 重建 后 的 状态 


6.5 HBase 的 集群 管理 


在 生产 环境 中 使 用 的 多 是 HBase 分 布 式 集群 ， 掌 握 如 何 自 动 化 部 署 HBase 集群 以 及 如 
何 管理 与 调度 好 集群 是 在 实际 项 目 中 应 用 HBase 的 必要 条 件 。 





65.1 集群 部 署 


Start Key EndKey Requests 
0 


HBase 集群 需要 部 署 到 Hadoop 之 上 ， 它 的 部 署 可 以 参考 前 面 的 Hadoop 多 节点 部 署 ， 


部 署 逻 辑 如 下 。 


(1) 主机 的 配置 : 配置 好 各 节点 的 操作 系统 、 时 间 服 务 、 网 络 、 主 机 名 、Java 环境 、 
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SSH 环境 。 

(2) Hadoop 的 配置 : 配置 好 各 节点 的 Hadoop 集群 ， 并 验证 成 功 。 

(3) Master 节点 的 配置 : HBase 的 Master 节点 的 HBase 安装 ， 配 置 好 hbase-env.xml、 
hbase-site.xml, regionservers 等 文件 。 
(4) RegionServer 节点 的 配置 : 将 Master 节点 的 HBase 同步 复制 到 各 RegionServer 节 
并 针对 性 地 调整 配置 。 
(5) 启动 与 验证 : 在 Master 节点 启动 HBase， 验 证 安装 配置 是 否 成 功 。 
这 里 以 三 节点 为 例 ， 简 要 介绍 HBase 集群 的 部 署 。 
1. 环境 介绍 
三 节点 的 基本 信息 如 表 6-10 所 示 。 

表 6-10 各 节点 的 信息 


| 主机 名 | p | 
172.16.2.211 Master 节点 /RegionServer 节点 


点 


172.16.2.212 RegionServer 节点 
slaveB 172.16.2.213 RegionServer 节点 





各 节点 首先 需要 配置 时 间 服 务 器 ， 确 保 时 钟 一 致 性 ,在 这 里 ， 由 masterH 充当 授时 服务 
器 ， 其 他 两 个 节点 作为 从 节点 进行 时 间 同 步 。 除 时 钟 服务 器 外 ， 还 需要 统一 配置 本 地 DNS 
映射 ， 各 节点 的 DNS 信息 如 下 所 示 : 


[root@masterH conf]# vi /etc/hosts 


172.16.2.211 masterH 
172.16.2.212 SlaveA 
172.16.2.213 SlaveA 


2. 修改 Master 配 置 文件 
(1) hbase-env.sh 文件 ， 设 定 环境 变量 ， 如 下 所 示 : 


[root@masterH conf]# vi hbase-env.sh 


export JAVA HOME-/usr/java/jdk1.8.0 05/ 
export HBASE MANAGES ZK-true 


WE HBASE MANAGES ZK 的 值 为 tue， 确 保 ZooKeeper 与 HBase 共 启 动 ， 在 本 次 
集群 部 署 时 ， 每 个 节点 都 需要 部 署 ZooKeeper。 
(2) hbase-site xml 文件 ， 具 体 配置 信息 如 下 : 


[root@ masterH conf]# vi hbase-site.xml 
<?xml version-"1.0"?» 
<?xml-stylesheet type-"text/xsl" href-"configuration.xsl"?» 
«configuration» 
<property> 
<name>hbase .master</name> 
<value> masterH:60000</value> 
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</property> 

<property> 
«name»hbase.master.maxclockskew«/name» 
«value»180000«/value» 

</property> 

<property> 
«name»hbase.rootdir«/name» 
«value» hdfs://masterH:9000/hbase «/value» 

</property> 

<property> 
«name»hbase.cluster.distributed«/name» 
«value»truec/value» 

</property> 

<property> 
<name>hbase . Zookeeper .quorum</name> 
«value» masterH,slaveA,slaveB «/value» 

</property> 

<property> 
«name»hbase.zookeeper.property.dataDir«/name» 
«value»/home/hbase/zookeeper«/value» 

</property> 

</configuration> 


重点 配置 hbase.cluster.distributed, hbase.zookeeper.property.dataDir. hbase.rootdir 、 
hbase.Zookeeper.quorum 四 个 参数 ， 其 中 ，hbase.cluster.distributed 设置 为 tue， 用 于 支持 分 
布 式 部 署 ，hbase.zookeeper.property.dataDir 配置 ZooKeeper 集群 的 data 目录 ， 这 里 放置 于 
/home/hbase/zookeeper 目录 ， 使 用 前 ， 先 确保 目录 创建 完毕 ，hbase.rootdir 配置 HDFS 的 集 
群 地 址 ， 这 里 设 定 为 hdfs://masterH:9000/hbase， 需 要 注意 ， 在 Hadoop 文件 系统 里 创建 好 
hbase 目录 ， 并 开放 相关 的 权限 ， hbase.Zookeeper.quorum 配置 ZooKeeper， 这 里 需要 在 三 个 
节点 均 启 动 ZooKeeper. 

(3) regionservers 文件 ， 用 于 配置 哪些 节点 为 RegionServer， 这 里 配置 如 下 : 


[root@masterH conf]# vi regionservers 
masterH 
SlaveA 
SlaveB 





3. 配置 信息 同步 
通过 scp 命令 ， 将 Master 节点 的 HBase 目录 同步 至 其 他 节点 ， 如 下 所 示 : 


[root@masterH home]# scp -r hbase root@slaveA:/home/ 
[root@masterH home]# scp -r hbase root@slaveB:/home/ 


4. 启动 与 验证 
先 启动 Hadoop 集群 ， 验 证 无 误 后 ， 启 动 HBase， 启 动 命令 如 下 所 示 : 


[root@masterH sbin]# ./start-all.sh 

Starting namenodes on [masterH] 

masterH: starting namenode, logging to 
/home/hadoop/10ogs/hadoop-root-namenode-localhost.localdomain.out 
masterH: starting datanode, logging to 
/home/hadoop/1ogs/hadoop-root-datanode-localhost.localdomain.out 
slaveB: starting datanode, logging to 
/home/hadoop/10ogs/hadoop-root-datanode-localhost.localdomain.out 
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SlaveA: starting datanode, logging to 
/home/hadoop/10ogs/hadoop-root-datanode-localhost.localdomain.out 
starting yarn daemons 

starting resourcemanager, logging to 
/home/hadoop/10gs/yarn-root-resourcemanager-localhost.localdomain.out 
SlaveB:starting nodemanager, 

logging to 
/home/hadoop/10gs/yarn-root-nodemanager-localhost.localdomain.out 
masterH:starting nodemanager, 

logging to 
/home/hadoop/10gs/yarn-root-nodemanager-localhost.localdomain.out 
SlaveA: starting nodemanager, 

logging to 
/home/hadoop/10gs/yarn-root-nodemanager-localhost.localdomain.out 
[root@ masterH bin]& ./start-hbase.sh 

slaveA: starting zookeeper, logging to 
/home/hbase/bin/../logs/hbase-root-zookeeper-localhost.localdomain.out 
slaveB: starting zookeeper, logging to 
/home/hbase/bin/../logs/hbase-root-zookeeper-localhost.localdomain.out 
masterH: starting zookeeper, 

logging to 
/home/hbase/bin/../logs/hbase-root-zookeeper-localhost.localdomain.outst 
arting master, logging to 
/home/hbase/1ogs/hbase-root-master-localhost.localdomain.out 

SlaveA: starting regionserver, 

logging to /home/hbase/bin/../logs/hbase-root-regionserver-localhost. 
localdomain.out 

masterH: starting regionserver, 

logging to /home/hbase/bin/../logs/hbase-root-regionserver-localhost. 
localdomain.out 

SlaveB: starting regionserver, 

logging to /home/hbase/bin/../logs/hbase-root-regionserver-localhost. 
localdomain.out 


启动 后 ， 分 别 登录 masterH, slaveA. slaveB 节点 ， 查 看 各 自 的 HBase 进程 状态 ， 进 行 
验证 ， 效 果 如 下 所 示 ， 至 此 集群 部 署 成 功 。 


[rootémasterH /]# jps 
19469 NameNode 

19607 DataNode 

19774 SecondaryNameNode 
22359 HQuorumPeer 
22431 HMaster 

22571 HRegionServ 
23311 jps 
[rootéslaveA /]# jps 
29486 DataNode 

30480 HQuorumPeer 
31358 jps 

30578 HRegionServer 
[rootéslaveB /]# jps 
27229 DataNode 

27985 HQuorumPeer 
28599 jps 

28088 HRegionServer 


6.5.2 自动 化 脚本 
在 集群 环境 下 , 很 多 数据 的 处 理 不 能 全 靠 手 动 输入 命令 , 而 是 需要 批量 处 理 , 在 HBase 
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中 ， 提 供 了 多 种 方式 ， 可 以 实现 批 处 理 。 
1. 批 处 理 命令 


可 以 通过 建立 一 个 文本 文件 ,将 要 执行 的 HBase 命令 顺 次 写 入 ,通过 hbase shell filename 
这 种 方式 来 执行 ， 以 达到 批量 处 理 的 效果 。 

例如 ， 这 里 创建 一 张 新 表 ， 然 后 在 表 中 写 入 数据 ， 并 查询 写 入 后 的 结果 ， 操 作 效 果 如 
下 所 示 : 


[root@masterH /]# vi /home/bigdatabookprj/hbase commandlist 
create 'bigdata:bat tb', 'batname' 
t = get table 'bigdata:bat tb' 


.put '1', 'batname:namel', 'valuel' 
.put '2', 'batname:name2', 'value2' 
.put '3', 'batname:name3', 'value3' 
.put '4', 'batname:name4', 'value4' 
.put '5', 'batname:name5', 'value5' 
.get '1' 

[root@ masterH /]# hbase shell /home/bigdatabookprj/hbase commandlist 
0 row(s) in 1.6350 seconds 

0 row(s) in 0.0020 seconds 

TABLE 

bigdata:bat tb 

bigdata:emp sign tb 

bigdata:emp tb 

hbase test 

testhbase 

5 row(s) in 0.0240 seconds 


0 row(s) in 0.1830 seconds 

0 row(s) in 0.0050 seconds 

0 row(s) in 0.0050 seconds 

0 row(s) in 0.0050 seconds 

0 row(s) in 0.0080 seconds 

COLUMN CELL 

batname:namel timestamp-1456928072609, 


value-valuel 
1 row(s) in 0.0220 seconds 


2. 基于 Shell 脚本 


通过 echo "create *tablename", name"" | hbase shell 这 种 形式 , 可 以 将 Shell 脚本 与 HBase 
Shell 命令 关联 起 来 。 

例如 ， 这 里 要 批量 创建 10 张 表 ， 如 果 采 用 前 面 的 批 处 理 方法 ， 创 建 命令 将 要 写 10 遍 ， 
而 这 里 ， 只 通过 for 循环 ， 就 可 以 完成 ， 先 编写 一 个 Shell 脚本 ，hbase_shell.sh， 然 后 执行 ， 


运行 效果 如 下 所 示 : 
[root@masterH bigdatabookprj]# vi hbase shell.sh 
#!/bin/sh i 
for i in tbl tb2 tb3 
do 
echo "begin create table $i" 
echo "create '$i','name'" | hbase shell 


echo "end create table $i" 
done 





JE iin BAR 
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echo "list" | hbase shell 

[root&masterH bigdatabookprj]é& chmod u*x hbase shell.sh 
[rootémasterH bigdatabookprj]i ./hbase shell.sh 
begin create table tbl 

0 row(s) in 1.9200 seconds 

Hbase::Table - tbl 

end create table tbl 

begin create table tb2 

0 row(s) in 1.9610 seconds 

Hbase::Table - tb2 

end create table tb2 

begin create table tb3 

0 row(s) in 1.6800 seconds 

Hbase::Table - tb3 

end create table tb3 


hbase test 

tbl 

tb2 

tb3 

testhbase 

8 row(s) in 1.0240 seconds 


6.5.8 ”权限 管理 


HBase 集群 中 支持 用 户 的 授权 管理 ， 可 以 细 粒 度 地 针对 单 表 、 单 列 复 、 单 列 进行 授权 ， 
权限 可 细 分 为 可 读 、 可 写 、 可 执行 、 可 创建 、 可 管理 ， 分 别 对 应 READ(R7)、WRITE(W7、 
EXEC('X)、CREATE(C)、ADMIN(CA)， 即 RWXCA。 

运行 HBase Security 模块 时 ， 需 要 在 conf/hbase-site.xm 文件 中 配置 以 下 参数 , 配置 完毕 
后 ， 重 新 启动 HBase: 


<property> 
<name>hbase.security.authorization</name> 
<value>true</value> 
</property> 
<property> 
<name>hbase.coprocessor.master.classes</name> 
<value> 
org.apache.hadoop.hbase.security.access.AccessController 
</value> 
</property> 
<property> 
<name>hbase.coprocessor .region.classes</name> 
<Value> 
org.apache.hadoop.hbase.security.token.TokenProvider, 
org.apache.hadoop.hbase.security.access.AccessController 
«/value» 
</property> 


1. 权限 分 配 
grant 命令 用 于 权限 分 配 ， 它 可 以 向 指定 的 用 户 ， 细 粒度 地 划分 权限 ， 它 的 命令 语法 是 : 


grant «user»«permissions»[«table»[«column family»[«column qualifier»]] 


(1) 为 userl 用 户 分 配 表 tbl 的 可 读 可 写 权 限 ， 操 作 如 下 : 
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hbase (main) :002:0> grant 'userl','RW','tbl' 
0 row(s) in 2.3390 seconds 


(2) 为 userl 用 户 分 配 表 tb2 的 全 部 权限 ， 操 作 如 下 : 


hbase (main) :003:0> grant 'userl','RWXCA','tb2"' 
0 row(s) in 0.0960 seconds 


(3) 为 userl 用 户 分 配 表 tb3 的 name 列 艇 的 可 读 可 写 可 执行 权限 ， 操 作 如 下 : 


hbase (main) :004:0> grant 'userl','RWX','tb3','name' 
0 row(s) in 0.1240 seconds 





2. 权限 查看 
user permission 命令 可 以 查看 某 张 表 的 权限 分 配 情况 ， 如 下 所 示 : 


hbase (main) :007:0> user permission 'tbl' 


User 

Table, Family,Qualifier:Permission 

userl tbl,,: [Permission: 
actions-READ, WRITE] 

root tbl,,: [Permission: 


actions-READ, WRITE, EXEC, CREATE, ADMIN] 
2 row(s) in 0.1780 seconds 


也 可 以 查看 全 部 表 的 权限 分 配 情况 ， 这 里 要 使 用 正则 表达 式 *， 如 下 所 示 : 


hbase (main) :008:0> user permission '*' 

User 

Table, Family,Qualifier:Permission 

root  bigdata:bat tb,,: [Permission: 
actions-READ, WRITE, EXEC, CREATE, ADMIN] 

root  bigdata:emp sign tb,,: [Permission: 
actions-READ, WRITE, EXEC, CREATE, ADMIN] 

userl tbl,,: [Permission: actions-READ, WRITE] 

root  tbl,,: [Permission: actions-READ, WRITE, EXEC, CREATE, ADMIN] 
userl tb2,,: [Permission: actions-READ, WRITE, EXEC, CREATE, ADMIN] 
root  tb2,,: [Permission: actions-READ, WRITE, EXEC, CREATE, ADMIN] 
userl tb3,name,: [Permission: actions-READ, WRITE, EXEC] 

root tb3,,: [Permission: actions-READ, WRITE, EXEC, CREATE, ADMIN] 
8 row(s) in 0.3090 seconds 


3. 权限 回收 
revoke 命令 用 于 权限 回收 ， 其 语法 与 分 配 权限 类 似 ; 


revoke «user»«table»«column family» «column qualifier» 


可 以 指定 回收 某 个 用 户 针对 某 个 表 、 某 个 列 艇 或 某 个 列 的 权限 。 
例如 ， 回 收 userl 用 户 在 表 tbl 上 的 权限 ， 如 下 所 示 : 


hbase (main) :012:0> revoke 'userl','tbl' 
0 row(s) in 0.1090 seconds 
hbase (main) :013:0> user_permission 'tb1' 





User 
Table,Family,Qualifier:Permission 
root tbl,,: [Permission: actions-READ, WRITE, EXEC, CREATE, ADMIN] 


1 row(s) in 0.0670 seconds 


eq] miis 
2 


6.54 ”集群 调度 


集群 调度 重点 是 资源 的 再 分 配 ， 要 经 常 对 表 进 行 分 析 ， 对 于 所 涉及 的 Region 要 进行 合 
理 的 调整 ， 如 果 某 些 RegionServer 服务 器 上 的 Region 过 多 ， 可 以 动态 迁移 ， 将 这 些 Region 
调整 至 Region 数目 较 少 的 RegionServer E; 对 某 些 过 大 的 Region 文件 ， 通 过 分 裂 ， 可 以 平 
衡 负载 ， 对 一 些 Region 可 以 归并 ， 以 对 资源 做 更 有 效 的 利用 。 

1. 迁移 


通过 move 命令 ， 可 以 将 指定 的 Region 迁移 至 另外 的 RegionServer 服务 器 上 ， 它 的 使 
用 语法 是 : 

move 'ENCODED REGIONNAME', 'SERVER NAME' 

ENCODED REGIONNAME 是 指 Region 的 名 称 ; SERVER. NAME 是 指 要 迁 至 的 目标 
服务 器 , 通常 要 由 主机 名 、 端 口号 .时间 戳 三 元 信息 组 成 , 如 hostname, 60020, 128949312175. 
如 果 SERVER NAME 不 指定 ，HBase 会 自动 迁移 。 

例如 ， XEE&—^ 4473 b67a4dea80dd7c3d2495fbb0c798bfb1 的 Region 至 slaveA 中 ， 如 下 
所 示 : 


hbase (main) :005:0> move 
'b67a4dea80dd7c3d2495fbb0c798bfb1','slaveA,60020,122323232323' 
0 row(s) in 0.0320 seconds 


2. 分 列 

通过 split 命令 进行 分 裂 , 它 可 以 针对 表 进 行 操作 , 也 可 以 通过 行 键 对 Region 进行 操作 ， 
使 用 语法 如 下 : 

€ split tableName'. 

€ split ‘regionName’, ‘splitKey’。 

XEL emp sign tb 为 例 ， 对 其 进行 分 裂 ， 如 下 所 示 : 


hbase (main) :013:0> split 'bigdata:emp sign tb' 
0 row(s) in 0.0480 seconds 


3. 归并 


major compact 可 对 于 一 张 表 进 行 数 据 归 并 ， 以 节约 资源 ， 通 常 ， 在 管理 时 ， 可 以 在 业 
务 压力 较 少 的 晚上 进行 手动 归并 ， 可 以 先 针 对 较 大 的 表 进 行 归并 ， 也 可 以 针对 全 部 的 表 进 
行 定 期 归并 ， 它 的 使 用 语法 是 : major compact “tbname”。 要 注意 的 是 ， 在 使 用 本 命令 时 ， 
最 好 关闭 Region 负载 平衡 功能 (balance_switch 命令 后 跟 false 表示 执行 关闭 ， 跟 true 表示 执 
行 开启 )。 

例如 ， 对 表 tbl 进行 归并 ， 归 并 前 ， 先 关闭 自动 负载 均衡 ， 运 行 完毕 后 ， 再 开启 ， 操 作 
如 下 所 示 : 


hbase (main) :017:0> balance switch false 
false g 

0 row(s) in 0.0130 seconds 

hbase (main) :018:0> major_compact 'tb1' 
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0 row(s) in 0.0450 seconds 

hbase (main):019:0» balancer 

false 

0 row(s) in 0.0270 seconds 

hbase (main) :020:0> balance switch true 
false 

0 row(s) in 0.0140 seconds 

hbase (main):021:0» balancer 

true 

0 row(s) in 0.0100 seconds 


4. RegionServer 节点 的 管理 

除了 对 Region 调整 之 外 ， 在 很 多 时 候 ， 也 要 关注 RegionServer 资源 ， 当 整个 集群 负载 
较 大 时 ， 要 动态 增加 RegionServer; 某 些 RegionServer 发 生 故 障 时 ， 要 及 时 下 线 故 障 节点 。 

(1) 增加 RegionServer 节点 的 流程 如 下 。 

© 在 Hadoop 集群 中 增加 DataNode 节点 ， 并 开通 成 功 。 

@ 在 HMaster 的 RegionServer 配置 文件 中 添加 新 的 DataNode 节点 。 

图 ”对 该 节点 推送 HBase 运行 文件 及 配置 文件 。 

© 在 新 节点 上 的 hbase/bin 目录 中 ,运行 hbase-daemon.sh start regionserver， 执 行 新 节 
点 的 运行 。 

(2) 对 于 故障 节点 的 下 线 流程 则 是 这 样 的 。 

© 在 主 节点 的 hbase/bin 目录 中 执行 graceful_stop.sh HOSTNAME, 其 中 HOSTNAME 
是 指 要 关闭 的 节点 主机 名 。 

© 开启 集群 负载 均衡 。 

@ 在 故障 节点 上 执行 hbase-daemon.sh stop regionserver。 

5. Region 的 检查 与 修复 


HBase 中 提供 了 hbck 命令 ， 用 于 检查 与 修复 Region， 通 过 hbase hbck 可 以 直接 对 集群 
中 的 Region 进行 检查 : 


[root@masterH bin]# hbase hbck 





Summary: 

hbase:meta is okay. 

Number of regions: 1 

Deployed on: masterH,60020,1456904989052 
hbase:acl is okay. 

Number of regions: 1 

Deployed on: masterH,60020,1456904989052 
tbl is okay. 

Number of regions: 1 

Deployed on: masterH,60020,1456904989052 


0 inconsistencies detected. 
Status: OK 


S 











通过 输入 hbase hbck -fx， 可 自动 地 对 问题 的 Region 进行 修复 ， 当 然 ， 对 于 修复 存在 问 


题 的 ， 可 以 配合 通过 日 志 信息 查看 故障 的 原因 。 
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6.5.5 日 志 分 析 


在 集群 管理 中 ， 不 可 避免 地 要 处 理 各 类 故障 ， 分 析 并 定位 故障 最 好 的 方式 ， 是 查看 日 
ik. 在 HBase 中 ， 提 供 了 Master. RegionServer 等 不 同 粒度 的 日 志文 件 ， 通 过 查看 日 志 ， 
可 以 细 粒 度 地 定位 各 类 问题 。 

在 hbase/logs 目录 中 ， 有 三 类 日 志文 件 。 

€  HMaster 运行 日 志 : 以 hbase-root-master-hostname.log 文件 名 存放 。 

€  RegionServer 运行 日 志 : 以 hbase-root-regionserver-hostname.log 文件 名 存放 。 

€ ”ZooKeeper 运行 日 志 ， 以 hbase-root-zookeeper-hostname.log 文件 名 存放 。 

通过 “tail -f 日 志文 件 ”， 可 以 查看 日 志文 件 ， 如 下 所 示 : 

[root@masterH logs]# tail -f hbase-root-master-iZ23d4byllaZ.log 

2016-01-21 15:29:17,805 INFO 

master.ReplicationLogCleaner: Stopping 

replicationLogCleaner-0x151ebb359030003, quorum-iZ23d4byllaZ:2181, 

baseZNode-/hbase 

2016-01-21 15:29:17,809 INFO [RpcServer.responder] ipc.RpcServer: 

RpcServer.responder: stopped 


2016-01-21 15:29:17,809 INFO [RpcServer.responder] ipc.RpcServer: 
RpcServer.responder: stopping 





在 具体 的 日 志文 件 中 ， 有 多 种 日 志 告警 级 别 ， 分 别 为 DEBUG, INFO. WARN, 在 运 
行 调试 期 间 ， 可 以 开启 DEBUG， 但 在 集群 正式 运行 时 ， 往 往 要 关闭 DEBUG 级 日 志 输 出 ， 
调整 不 同 级 别 的 日 志 输 出 通过 hbase/conf 目录 中 的 log4j.properties 文件 来 进行 : 


[root@masterH conf]# cat log4j.properties 
# Custom Logging levels 


log4j.logger.org.apache.zookeeper-INFO 
$10g4j.logger.org.apache.hadoop.fs.FSNamesystem-DEBUG 
10g4j.logger.org.apache.hadoop.hbase-DEBUG 

# Make these two classes INFO-level. Make them DEBUG to see more zk debug. 
1og4j.logger.org.apache.hadoop.hbase.zookeeper.ZKUtil-INFO 
10g4j.logger.org.apache.hadoop.hbase.zookeeper.ZooKeeperWatcher-INFO 
$10g4j.logger.org.apache.hadoop.dfs-DEBUG 

# Set this class to log INFO only otherwise its OTT 

# Enable this to get detailed connection error/retry logging. 

+ 
10g4j.logger.org.apache.hadoop.hbase.client.HConnectionManager$HConnecti 
oniImplementation-TRACE 


通过 修改 上 面 标记 的 参数 ， 如 将 DEBUG 改 为 INFO， 即 可 以 只 输出 INFO 级 以 上 日 志 
信息 ， 在 集群 中 修改 本 文件 后 ， 要 及 时 同步 到 其 他 节点 ， 并 重新 启动 HBase 集群 生效 。 

在 不 少 规模 较 大 的 集群 中 ， 需 要 建立 统一 的 日 志 服务 器 ， 进 行 统 一 的 HBase 日 志 的 收 
集 、 定 位 、 分 析 、 决 策 。 
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本 章 围绕 HBase 的 基本 概念 、 基 本 原理 、 数 据 模型 、 伪 分 布 式 安装 部 署 、Shell 命令 、 
HBase 集群 部 署 与 管理 进行 了 介绍 与 实践 。 

通过 本 章 的 学 习 ， 读 者 应 能 够 基本 掌握 HBase 的 部 署 与 使 用 ， 为 后 续 学 习 中 做 更 大 规 
模 的 集群 实践 提供 支撑 。 
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本 章 将 详细 介绍 HBase 编程 框架 、API 接口 、 表 编程 、 数 据 编程 、 集 
群 编程 等 。 通 过 本 章 的 学 习 ， 读 者 将 能 够 深入 掌握 HBase 的 二 次 开发 与 集 
群 管理 ， 为 未 来 在 项 目 中 灵活 运用 HBase 打 好 基础 。 








HBase 编程 框架 
HBase rest 接口 

HBase API 接口 
HBase 编程 示例 
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7.1 HBase 的 编程 接口 


HBase 提供 了 多 种 编程 接口 ， 分 别 满足 不 同 的 用 户 场景 ， 这 些 接口 包括 : rest, thrift, 
avro. Java 原生 API 等 方式 。 其中, 基于 rest 的 接口 支持 HTTP 的 文本 数据 互 操 作 , 基于 thrift 
即 支 持 文本 ， 也 支持 二 进 制 流 ; 基于 avro 的 方式 只 支持 二 进 制 流 ， 图 7-1 给 出 了 编程 接口 

















的 示意 图 。 
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图 7-1 中 ， 针 对 每 一 类 接口 ， 在 HBase 中 都 会 启动 对 应 的 服务 作为 支撑 ， 通 过 服务 层 
的 引入 ， 来 实现 不 同 用 户 的 跨 平台 访问 需求 ， 


7.4.4. rest 编程 接口 


rest 服务 基于 HTTP 协议， 在 HBase 中 内 置 了 rest 服务 ， 通 过 hbase rest starts， 可 以 直 
接 启动 rest 服务 ， 启 动 成 功 后 ， 默 认 rest 服务 运行 在 前 台 ， 默 认 端 口 为 8080; 也 可 以 通过 
在 命令 后 面 加 入 -p 参数 , 来 更 改 默认 端口 号 。 如 将 默认 端口 改 成 8090: hbase rest start -p 8090, 
也 能 够 调用 hbase/bin 目录 下 的 hbase-daemon.sh 脚本 , 以 hbase-daemon.sh start rest 的 方式 完 
成 rest 服务 的 后 台 启 动 。 
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1. rest 服务 启动 


下 面 以 后 台 的 方式 启动 rest 服务 , 默认 端口 改 为 8090。 启 动 完毕 之 后 ,通过 查看 Linux 
绑 定 的 端口 ， 判 断 服务 是 否 启动 成 功 。 


[root@www bin]# hbase-daemon.sh start rest -p 8090 

starting rest, logging to /alidata/hbase/logs/hbase-root-rest-www.out 
[root@www bin]# netstat -natp | grep 8090 

tcp 0 0 0.0.0.0:8090 0.0.0.0:* 

LISTEN 9389/java 

[root@www bin]# 


2. rest 服务 停止 

若 rest 在 前 台 启 动 ， 可 以 通过 Ctrl+C 的 方式 进行 关闭 ， 也 可 以 通过 ps -ef 去 查找 存活 
的 进程 ,以 借助 kill 关闭 服务 进程 的 方式 关闭 ; 若 rest 是 后 台 运 行 , 可 以 通过 hbase-daemon.sh 
stop rest 来 完成 服务 的 关闭 。 这 里 关闭 rest 服务 ， 如 下 所 示 ， 需 要 注意 的 是 ， 如 果 是 指定 端 
口号 启动 的 rest， 在 关闭 时 ， 同 样 要 指定 一 下 rest 当前 运行 的 端口 。 

[root@www bin]# hbase-daemon.sh stop rest -p 8090 

stopping rest.. 


[root@www bin]# netstat -natp | grep 8090 
[root@www bin]# 





3. rest 服务 连接 


rest 是 基于 HTTP 协议 运行 的 , 针对 HBase 数据 库 的 增删 改 查 , 分 别 对 应 于 HTTP 协议 
中 的 相应 请 求 方法 ， 表 7-1 给 出 了 对 应 的 关系 。 
表 7-1 rest 请 求 对 应 的 关系 





rest 功能 备 注 
CREATE 创建 表 等 
UPDATE POST 用 于 修改 ，PUT 用 于 替换 
DELETE 删除 表 、 数 据 等 
READ 查看 集群 状态 、 数 据 表 信息 等 


在 浏览 器 中 直接 输入 URL 来 查看 结果 (调用 GET 方 法), 如 图 7-2 所 示 。 也 可 以 通过 Linux 
的 wget 或 curl 命令 查看 服务 结果 。 


[TT 

48 bzidqbyllaransa | 
D manran B vaes Mazin > assa @ mire 
bigdata:bat_tb 


bigdata:emp_sign_tb 
bigdata:emp_tb 


E 


à 


PS A 从 基础 理论 到 最 佳 实 中 


http://hostname:port/ 这 种 方式 会 返回 当前 所 有 的 HBase 表 名 ， 可 以 通过 参数 指定 返回 的 





信息 格式 。 


例如 ， 以 文本 的 形式 返回 ， 以 curl 命令 为 例 : 


[root@www bin]# curl -H "Accept: text/plain" http://iz23d4by11az:8090/ 
bigdata:bat tb 

bigdata:emp sign tb 

bigdata:emp tb 


exam tb 
hbase test 
tbl 

tb2 

tb3 
testhbase 


以 XML 格式 返回 ， 如 下 所 示 : 


[root@www bin]# curl -H "Accept: text/xml" http://iz23d4byllaz:8090/ 
«?xml version-"1.0" encoding-"UTF-8" standalone="yes"?> 
«TableList» 

«table name-"bigdata:bat tb"/» 

«table name-"bigdata:emp sign tb"/» 

«table name-"bigdata:emp tb"/» 

«table name-"exam tb"/» - 

«table name-"hbase test"/» 

«table name-"tbl"/» 

«table name-"tb2"/» 

«table name-"tb3"/» 

«table name-"testhbase"/» 

«/TableList» 


4. 查看 表 结构 
在 URL 链接 后 面 跟 表 名 ， 跟 schema 关键 字 ， 如 http://hostname:port/tablename/schema， 


可 以 查看 指定 表 的 结构 。 这 里 查看 表 hbase test 的 结构 ， 如 下 所 示 : 


如 ， 


[root@www hbase]# curl -H "Accept: text/plain" 
http://iz23d4byllaz:8090/hbase test/schema 

{ NAME-» 'hbase test', IS META => 'false', COLUMNS => [ ( NAME => 'fl1', 
BLOOMFILTER => 'ROW', VERSIONS => '1', IN MEMORY => 'false', 

KEEP DELETED CELLS => 'false', DATA BLOCK ENCODING -» 'NONE', COMPRESSION 
-» 'NONE', TTL => '2147483647', MIN VERSIONS => '0', BLOCKCACHE => 'true', 
BLOCKSIZE => '65536', REPLICATION SCOPE => '0' }, ( NAME => 'f2', BLOOMFILTER 
=> 'ROW', VERSIONS => '1', IN MEMORY => 'false', KEEP DELETED CELLS => 'false', 
DATA BLOCK ENCODING => 'NONE', COMPRESSION => 'NONE', TTL => '2147483647', 
MIN VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536', 
REPLICATION SCOPE => '0' ) ] ) 


5. 删除 表 


在 URL 中 构造 delete 请 求 ， 通 过 detete /tablename/schema， 可 以 实现 对 表 的 删除 。 例 
当前 删除 tbl 表 ， 操 作 如 下 : 


[root@www lib]# curl -v -X delete http://iz23d4byllaz:8090/tb1/schema 
* About to connect() to www.rdesec.com port 8090 
Trying 121.40.126.204... connected 
Connected to www.rdesec.com (121.40.126.204) port 8090 
delete /tbi/schema HTTP/1.1 


Vox o 


E 
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> User-Agent: curl/7.15.5 (x86 64-redhat-linux-gnu) libcurl/7.15.5 
OpenSSL/0.9.8b zlib/1.2.3 libidn/0.6.5 

» Host: www.rdesec.com:8090 

Accept: */* 


HTTP/1.1 200 OK 

Content-Length: 0 

Connection #0 to host www.rdesec.com left intact 
Closing connection #0 


这 里 为 了 方便 读者 查看 ， 使 用 了 cul 的 -v 参数 ， 可 以 打印 HTTP 交互 的 细节 ， 使 用 -X 
参数 用 于 构造 请 求 方法 。 执 行 完毕 后 ， 通 过 http://www.rdesec.com:8090/tbl/exists 的 方法 查 
询 是 否 已 删除 : 


[root@www lib]# curl http:// iz23d4byllaz:8090/tbl/exists 
Not found 


+4 人 和 人 VV 





6. 查看 数据 


在 URL 中 输入 “http://hostname:port/tablename/rowkey/”， 可 以 查看 指定 行 键 值 的 列 数 
据 。 这 里 查询 表 hbase test 行 键 值 为 1 的 列 数据 ， 如 下 所 示 : 


[root@www hbase]# curl http://iz23d4byllaz:8090/hbase test/1/ 
«?xml version-"1.0" encoding-"UTF-8" standalone="yes"?> 
«CellSet» 

«Row key-"MQ--"» 

«Cell column-"ZjE6" timestamp-"1456718706841"»YQ--«/Cell» 
«Cell column-"ZjI6" timestamp-"1456718706938"»YTE-«/Cell» 
«/Row» 

«/CellSet» 


返回 的 值 以 base64 的 形式 进行 编码 ， 在 Linux 中 通过 base64 命令 可 进行 解码 ， 如 上 面 
的 列 字段 名 忆 E6， 经 解码 后 为 全 ， 如 下 所 示 : 


[root@www hbase]# echo ZjE6 | base64 -d 
f1 


7. 提交 数据 


通过 构造 PUT 或 POST 方法 的 URL， 可 以 实现 表 的 创建 、 列 数据 的 增加 ， 这 里 以 数据 
新 增 为 例 ，URL 的 类 型 为 http://hostname:port/tablename/rowkey/<column>(“:*<qualifier>), 提 
交 的 为 PUT 方法， 将 要 提交 的 列 数据 保存 到 文本 文件 中 。 

当前 创建 一 个 文本 文件 tt， 写 入 数据 test， 向 hbase test 表 的 fl:status 字段 进行 数据 提 
交 ， 行 键 值 为 8， 操作 如 下 所 示 : 


[root@www hjava]# cat tt 
test 
[root@www hjava]# curl -v -T "/home/bigdatabookprj/hjava/tt" 
http:// iz23d4byllaz:8090/hbase test/8/fl:status 
About to connect() to www. rdesec.com port 8090 
Trying 121.40.126.204... connected 
Connected to www.rdesec.com (121.40.126.204) port 8090 
PUT /hbase test/8/fl:status HTTP/1.1 
» User-Agent: curl/7.15.5 (x86 64-redhat-linux-gnu) libcurl/7.15.5 
OpenSSL/0.9.8b zlib/1.2.3 libidn/0.6.5 
» Host: www.rdesec.com:8090 
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Accept: */* 
Content-Length: 5 
Expect: 100-continue 


HTTP/1.1 100 Continue 

HTTP/1.1 200 OK 

Content-Length: 0 

Connection #0 to host www.rdesec.com left intact 

* Closing connection #0 

[root@www hjava]# curl http://www.rdesec.com:8090/hbase test/8/fl:status 
test 


i AN MN Y 


8. 查看 表 元 数据 


在 URL 链接 后 面 跟 表 名 ， 跟 regions 关键 字 ， 如 http;//hostname:port/tablename/regions, 
可 以 查看 指定 表 的 元 数据 信息 。 例 如 : 


[root@www ~]# curl -H "Accept: text/xml" http:// 
iz23d4by11az:8090/hbase test/regions 

«?xml version-"1.0" encoding-"UTF-8" standalone-"yes"?» 

«TableInfo name-"hbase test"» 

«Region endKey-"" id-"1456718705230" location-"iZ23d4byllaZ:60020" 
name-"hbase test,,1456718705230.6e677c3827c£46503e5a23c663cd14b92." 
startKey-""/» 

«/TableInfo» 


9. 查看 集群 状态 

在 URL 链接 后 面 跟 /status/cluster， 可 以 查看 集群 的 状态 。 

如 http://hostname:port//status/cluster。 例 如 : 

[root@www ~]# curl http://iz23d4byllaz:8090/status/cluster 
1 live servers, 0 dead servers, 12.0000 average load 

1 live servers 


iZ23d4byllaZ:60020 1457240254015 
requests-0, regions-12 




















testhbase,,1453080469131.0c3da9d154163bbb2b106ae878acc9cc. 
stores-2 
storefiless-2 
storefileSizeMB-0 
memstoreSizeMB-0 
storefileIndexSizeMB-0 
readRequestsCount-0 
writeRequestsCount-0 
rootIndexSizeKB-0 
totalStaticIndexSizeKB-0 
totalStaticBloomSizeKB-0 
totalCompactingKVs-0 
currentCompactedKVs-0 


10. 编程 接口 

可 以 基于 多 种 编程 语言 开发 HBase rest 应 用 程序 ， 在 HBase 中 ， 提 供 了 基于 Java 语言 
的 rest 接口 包 。 下 面 以 Java 语言 为 例 , 编写 一 个 rest 连接 程序 ， 用 于 查询 hbase test 表 中 的 
某 一 键 值 的 信息 。 源 代码 如 下 所 示 : 


import java.util.Iterator; 
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import java.util.List; 

import org.apache.hadoop.hbase.Cell; 

import org.apache.hadoop.hbase.util.Bytes; 

import org.apache.hadoop.hbase.client.Get; 

import org.apache.hadoop.hbase.client.Result; 

import org.apache.hadoop.hbase.rest.client.Client; 
import org.apache.hadoop.hbase.rest.client.Cluster; 
import org.apache.hadoop.hbase.rest.client.RemoteHTable; 


public class restexam ( 


public static void main(String[] args) throws Exception ( 
/ /初始化 并 连接 HBase 集群 
Cluster hbasecluster = new Cluster(); 
hbasecluster.add("iZ23d4byllaZ", 8080); 
Client restclient - new Client (hbasecluster); 
// 定 位 要 操作 的 HBBase 数据 表 
RemoteHTable hbasetable = 
new RemoteHTable (restclient, "hbase test"); 
// 设 定 行 键 值 
Get rowkey = new Get (Bytes.toBytes("7")); 
rowkey.addFamily (Bytes .toBytes ("f2")); 
// 返 回 结果 集合 
Result res = hbasetable.get (rowkey); 
List«Cell» celist - res.listCells(); 
// 和 迭代 结果 集 ， 并 查看 结果 
for(Iterator i-celist.iterator(); i.hasNext(); ) 
t 
Cell ce - (Cell)i.next(); 
System.out.println( 
"descripinfor: " + ce + " value: " + new String(ce.getValue())); 
} 
hbasetable.close(); 


} 


在 编译 时 ， 需 要 引入 hbase-client-0.98.3-hadoopl.jar. hbase-client-0.98.3-hadoopl.jar 两 
个 包 ， 由 于 编译 环境 已 配置 lib 环境 变量 并 指向 hbase/lib， 因 此 可 以 直接 编译 ， 编 译 与 运行 
的 效果 如 下 所 示 : 


[root@www hjava]# javac restexam.java 

[root@www hjava]f java restexam 

descripinfor: 7/f1:/1458390524322/Put/vlen-0/mvcc-0 value: 
descripinfor: 7/f1:status/1458398719648/Put/vlen-4/mvcc-0 value: liu 
descripinfor: 7/f1:status1/1458399002174/Put/vlen-0/mvcc-0 value: 





关于 rest 接口 。 

(D 基于 HTTP 的 rest 接口 具有 松 耦 合 、 跨 平台 、 与 编程 语言 无 关 性 的 特点 ， 能 够 方 
便 各 类 编程 语言 使 用 。 

© 在 编程 语言 中 使 用 rest， 应 借助 于 网 络 socket 接口 对 HTTP 进行 封装 ， 即 可 以 完成 
与 HBase 的 交互 。 


eq A 从 基础 理论 到 最 佳 实践 “ 


=9 


7.1.2 thrift 接口 


thrift 是 HBase 提供 的 一 种 跨 平台 RPC 服务 ， 可 以 支持 用 Co. PHP. Python. Java 等 
多 种 语言 开发 HBase thrift 应 用 程序 。 启 停 thrift 服务 与 rest 相 类 似 , 不 同 之 处 是 ， 服 务 名 称 
J thrift 或 者 thrift2， 如 hbase thrift start， 默 认 的 启动 端口 为 9090。 

目前 ,开发 thrift 应 用 程序 多 采用 thrift2 作为 网 关 服 务 ， 相 比 于 thrift 服务 ，thrift2 有 较 
大 的 改进 ， 启 动 thrift2 的 示例 如 下 : 


[root@www ~]# hbase thrift2 start 


2016-03-22 09:51:04,732 INFO [main] http.HttpServer: Jetty bound to port 
9095 


2016-03-22 09:51:05,411 INFO [main] thrift2.ThriftServer: starting HBase 
ThreadPool Thrift server on 0.0.0.0/0.0.0.0:9090 


默认 的 9095 是 thrift 的 Web 管理 界面 ， 效 果 如 图 7-3 所 示 。 
jrwemsueecne  CUEPEEC Roc. aem Hecs Ge cm Hos NEW 190003701 





€) D uzsdAbylacocos A ihe Um c as tesna- 
. emn vides Im warm a enis Q atie 
Pii home Losiogs logus MetesDump  HBase Coniguraton 
ThriftServer 2090 
Software Attributes 
Attribute Name Value Description 
HBase Version 0.98.3-hadoop1, rd5e65a9144e315bb0a964e7730871af3215018d5 — HBase version and revision 
HBase Compiled Sat May 31 19:34:57 PDT 2014, apurtell When HBase version was compiled and by whom. 
Thrift Server Start Time Tue Mar 22 09:51:04 CST 2016 Date stamp of when this Thnf server was started 
Thrin impi Type threadooot Thrift RPC engine implementation type chosen by this Thrill server 
Compact Protocol false Thrift RPC engine uses compact protocol 
Framed Transport. false. Thrift RPC engine uses framed transport 


7-3 HBase 的 thrift 管理 界面 


9090 是 接口 服务 端口 ，thrift 提供 一 整套 的 API 接口 类 库 与 方法 、 函 数 ， 这 里 以 Java 
语言 为 例 ， 开 发 了 一 个 简单 的 数据 提交 与 查询 系统 ， 针 对 hbase test 表 ， 提 交 一 条 记录 ， 并 
查询 记录 集 。 

源 代码 如 下 所 示 : 


import java.nio.ByteBuffer; 

import java.util.ArrayList; 

import java.util.List; 

import org.apache.hadoop.hbase.thrift2.generated.TColumnValue; 
import org.apache.hadoop.hbase.thrift2.generated.TGet; 

import org.apache.hadoop.hbase.thrift2.generated.THBaseService; 
import org.apache.hadoop.hbase.thrift2.generated.TIOError; 
import org.apache.hadoop.hbase.thrift2.generated.TPut; 

import org.apache.hadoop.hbase.thrift2.generated.TResult; 
import org.apache.thrift.TException; 

import org.apache.thrift.protocol.TBinaryProtocol; 

import org.apache.thrift.protocol.TProtocol; 
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import org.apache.thrift.transport.TSocket; 
import org.apache.thrift.transport.TTransport; 


public class thrifttest ( 
public static void main(String[] args) throws TIOError, TException ( 
String hostname = "iZ23d4byllaZ"; 
int port = 9090; 
int timeout = 10000; 
// 构 建 thrift 连接 ， 并 获取 连接 
TTransport thriftsocket = new TSocket (hostname, port, timeout); 
THBaseService.Iface thriftclient = new THBaseService.Client( 
new TBinaryProtocol (thriftsocket)); 
thriftsocket.open(); 


// 构 造 数据 提交 条 件 

ByteBuffer hbasetable = ByteBuffer.wrap("hbase test".getBytes()); 
TPut rowkey - new TPut(); 

// 行 键 值 为 9， 字段 为 fl:status， 值 为 run 
rowkey.setRow("9".getBytes()); 

TColumnValue columnfl - new TColumnValue(); 
columnfl.setFamily("fl".getBytes()); 
columnfl.setQualifier("status,".getBytes()); 

columnfl.setValue ("run".getBytes()); 


// 行 键 值 为 9， 字段 为 f2 :status， 值 为 stop 
TColumnValue columnf2 = new TColumnValue(); 
columnf2.setFamily("f2".getBytes()); 
columnf2.setQualifier("status,".getBytes()); 
columnf2.setValue("stop".getBytes()); 


// 提 交 记 录 

List«TColumnValue» columnlist = new ArrayList<TColumnValue> (); 
columnlist.add (columnfl); 

columnlist.add (columnf2); 

rowkey.setColumnValues (columnlist); 

thriftclient.put (hbasetable, rowkey); 


// 获 取 提 交 的 行 键 值 9 的 结果 

TGet rowget = new TGet(); 

rowget.setRow("9".getBytes()); 

TResult res - thriftclient.get(hbasetable, rowget); 

for (TColumnValue reskey : res.getColumnValues()) ( 
System.out.print("key : " + new String(reskey.getFamily() 

+ ":" + new String(reskey.getQualifier())); 
System.out.print("value : " + new String(reskey.getValue())); 
System.out.print(",timestamp : " + reskey.getTimestamp() + "An"); 

} 


thriftsocket.close(); 


} 
在 编译 thrift 应 用 程序 前 ， 需 要 加 载 hbase-thrift-0.98.3-hadoop1.jar 包 ， 编 译 运行 结果 如 
下 所 示 : 


[root@www hjava]f javac thrifttest.java 

[root@www hjava]t java thrifttest 

key : fl:status,value : run,timestamp : 1458615999886 
key : f2:status,value : stop,timestamp : 1458615999886 


通过 HBase Shell 验证 提交 的 数据 ， 如 下 所 示 : 


Bl 从 基础 理论 到 最 佳 实践 


hbase (main) :007:0> get 'hbase test','9' 


COLUMN CELL 
fl:status, timestamp-1458615999886, value-run 
f2:status, timestamp-1458615999886, value-stop 


2 row(s) in 0.0130 seconds 


7.1.3 Java API 接口 


HBase 本 身 是 基于 Java 开发 的 ， 因 此 ， 也 提供 了 一 整套 的 Java API 开发 接口 ， 整 个 接 
口 方法 非常 完善 ， 包 括 命令 空间 管理 、 表 级 管理 、 列 徐 级 管理 、 数 据 (增删 改 查 、 导 入 、 导 
出 )、 集 群 调度 、 状 态 监测 、 集 群 优化 等 。 

HBase 官方 网 站 (http://hbase.apache.org/apidocs/overview-summary.html) 提 供 了 上 述 包 、 
类 、 方 法 的 详细 使 用 说 明 ， 用 于 查询 所 有 的 HBase Java 包 以 及 使 用 方法 ， 如 图 7-4 所 示 。 





Ne Package Class Use 





Prev Next Frames NoFrames All Classes 


Apache HBase 2.0.0-SNAPSHOT API 


, Package Description 
com.google.protobuf 
org.apache.hadoop.hbase 
org.apache.hadoop.hbase.classification 
org.apache.hadoop.hbase.classification.tools 





org.apache.hadoop.hbase.client Provides HBase Client 
org.apache.hadoop.hbase.client.backoff 
org.apache.hadoop.hbase.client.example 
org.apache-hadoop.hbase.client replication 
org.apache.hadoop.hbase.client.security 

org.apache.hadoop.hbase.conf 

org.apache.hadoop.hbase.coordination 

org.apache.hadoop.hbase.coprocessor Table of Contents 
org.apache.hadoop.hbase.errorhandling 

org.apache.hadoop.hbase.exceptions 

org.apache.hadoop.hbase.filter Provides row-level filters applied to HRegion scan results during calls to Resu1tScanner.next () 


Copied from hadoop source code. 


f peche eon Ante Mp. See htips;/issues.apache.org/jirabrowse/HADOOP-10232 to know why. 


org.apache.hadoop.hbase.http.conf 
org.apache.hadoop.hbase.http.jmx This package provides access to JMX primarily through the DMKJaonservler class. 
org.apache.hadoop.hbase.http.log 


7-4 HBase 的 包 库 列 表 


编程 流程 


基于 Java API 进行 HBase 编程 ,需要 遵循 初始 化 连接 HBase、 执 行 相关 表 与 数据 操作 、 
编译 与 运行 三 个 步骤 。 

首先 ， 建 立 初 始 化 连接 。 需 要 通过 Configuration 类 建立 与 Zookeeper 的 连接 通道 ， 需 要 
指定 HBase 的 ZooKeeper IP 与 端口 号 ， 默 认为 2181 。 

在 初始 化 连接 代码 中 ， 需 要 先导 入 org.apache hadoop.conf Configuration 包 。 

具体 代码 如 下 所 示 : 


import org.apache.hadoop.conf.Configuration; 


private static Configuration hbaseconn - null; 


static ( 


Configuration connconf - new Configuration(); 
connconf.set("hbase.zookeeper.quorum", 
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connconf.set("hbase.zookeeper.property.clientPort", "2181"); 
hbaseconn = HBaseConfiguration.create (connconf); 


} 


其 次 ， 利 用 HBase Java API 各 类 接口 完成 所 需要 的 表 、 数 据 、 集 群 管理 等 操作 ， 这 些 
会 在 后 面 的 内 容 中 详细 介绍 其 使 用 。 


最 后 , 对 代码 进行 编译 与 运行 。 


用 java 命令 独立 运行 。 


[roorewww hbase]# 1s lib/ 
activation-1.1.jar 

asn-3.1.jar 
commons-beanutils-1.7.0.jar 
commons-beanutils-core-1.8.0.jar 
commons-cli-1.2.jar 
commons-codec-1.7.jar 
commons-collections-3.2.1.jar 
commons-configuration-1.6.jar 
commons-digester-1.8.jar 
commons-el-1.0.jar 
commons-httpclient-3.1.jar 
commons-io-2.4.jar 
commons-lang-2.6.jar 
commons-logging-1.1.1.jar 
commons-math-2.1.jar 
commons-net-1.4.1.jar 
findbugs-annotations-1.3,9-1.jar 
guava-12.0.1.jar 





hadoop-core-1.2.1.jar 
hamcrest-core-1.3.jar 
hbase-client-0.98.3-hadoopl.jar 





7.1.4 Java API 示例 





编译 时 , 需要 指定 大 量 的 HBase 库 , 这 些 库 位 于 hbase/lib 
目录 中 ， 如 图 7-5 所 示 。 编 译 完毕 后 ， 可 以 借助 Hadoop 命令 加 载 至 集群 中 运行 ， 


也 可 以 利 


hbase-hadoop1-compar-0.98.3-hadoop1.jar jersey-core-1.8.jar 


hbase-hadoop-compat.-0.98.3-hadoopl.jar 
hbase-it-0.98.3-hadoopl.jar 
hbase-it-0.98.3-hadoopl-tests.jar 
hbase-prefix-tree-0.96.3-hadoopl.jar 
hbase-protocol-0.98.3-hadoopl.jar 
hbase-server-0.98.3-hadoopl.jar 
hbase-server-0.98.3-hadoopl-tests.jar 
hbase-she11-0.98.3-hadoopl.jar 
hbase-testing-util-0.98.3-hadoopl.jar 
hbase-thrift-0.98.3-hadoopl.jar 
high-scale-lib-1.1.1.jar 
htrace-core-2.04.jar 
httpclient-4.1.3.jar 
httpcore-4.1.3.jar 
jackson-core-asi-1.8.8.jar 
jackson-jaxrs-1.8.8.jar 
jackson-mapper-asl-1.8.8.jar 
jackson-xc-1.8.8.jar 

jamon-runtime-. 
jasper-compile: 
jasper-runtime-5 
jaxb-api-2.2.2.jar 


7-5 所 需要 的 类 库 














jersey-json-1.8.jar 
jersey-server-1.8.jar 
jettison-1.3.1.jar 
jetty-6.1.26.3ar 
jetty-sslengine-6.1.26.3ar 
jetty-util-6.1.26.jar 
jruby-complete 8.jar 
jsp-2.1-6.1.14. 
jsp-api-2.1-6.1.14.jar 
jar305-1.3.9.jar 
junit-4.11.3ar 
libthrift-0.9.0.jar 
10g4j-1.2.17.3ar 
metrics-core-2.1.2.jar 
netty-3.6.6.Final.jar 
protobuf-java-2.5.0.jar 





servlet-api-2.5-6.1.14.jar 
s1f4j-api-1.6.4.jar 
31£41-10g4j1 .4.jar 
xnlenc-0.52.jar 
zookeeper-3.4.6.jar 








这 里 编写 一 个 HBase 示例 ， 创 建 一 张 考试 成 绩 表 exam tb， 含有 一 个 字段 math, HF 
标记 数学 成 绩 ， 学 生 姓 名 代表 行 键 值 ， 向 表 中 写 入 一 条 学 生成 绩 信息 。 


1. 程序 代码 


根据 上 述 需 求 ， 建 立 hbaseexam.java 文件 ， 并 建立 一 个 名 为 hbaseexam HEK, FEF H 


代码 如 下 : 


import java.io.*; 


import org.apache.hadoop.conf.Configuration; 


import org.apache.hadoop.hbase.client.HBaseAdmin; 


import org.apache.hadoop.hbase.HBaseConfiguration; 


import org.apache.hadoop.hbase.HColumnDescriptor; 


import org.apache.hadoop.hbase.HTableDescriptor; 
import org.apache.hadoop.hbase.client.HTable; 
import org.apache.hadoop.hbase.client.Put; 
import org.apache.hadoop.hbase.util.Bytes; 


«d 从 基础 理论 到 最 佳 实践 


public class hbaseexam { 


private static Configuration hbaseconf = null; 
static ( 
Configuration testconf - new Configuration(); 
testconf.set("hbase.zookeeper.quorum", "iZ23d4byllaZ"); 
testconf.set("hbase.zookeeper.property.clientPort", "2181"); 
hbaseconf = HBaseConfiguration.create (testconf); 
} 
public static void main (string [] agrs) { 
try ( 
String strTableName - "exam tb"; 
// 表 创建 
HBaseAdmin hbTable = new HBaseAdmin (hbaseconf); 
HTableDescriptor tbdesc - new HTableDescriptor (strTableName); 
tbdesc.addFamily (new HColumnDescriptor ("math")); 
hbTable.createTable (tbdesc) ; 
System.out.println("Status: [Sucess] Create Table ok..."); 


// 添 加 记录 
HTable table = new HTable(hbaseconf, strTableName); 
Put put = new Put (Bytes .toBytes ("tom")); 
put .add (Bytes .toBytes ("math"), 
Bytes.toBytes(""), Bytes.toBytes("80")); 
table.put (put) ; 
System.out.println("Status: [Sucess] add recored ok..."); 


) catch (Exception e) ( 
e.printStackTrace(); 
) 


) 

2. 手动 编译 与 运行 

可 以 手动 通过 javac 命令 编译 该 Java 文件 ， 前 提 是 ,在 编译 的 机 器 上 ，CLASSPATH 已 
设置 到 hbase/lib， 编 译 成 功 后 ， 通 过 java 命令 运行 。 

如 下 所 示 : 


[root@www hjava]# javac hbaseexam.java 
[root@www hjava]f java hbaseexam 


3. 手动 加 载 至 Hadoop 集群 运行 


可 以 将 程序 打包 成 JAR 文件 ， 然 后 加 载 至 Hadoop 集群 中 运行 ， 打 包 JAR 的 方式 ， 是 
首先 创建 一 个 manifestmf 文件 ， 利 用 jar 命令 进行 打包 ， 最 后 通过 hadoop jar 命令 运行 。 
操作 如 下 所 示 : 


[root@ www hjava]# vi manifest.mf 

Manifest-Version: 1.0 

Main-Class: hbaseexam 

[root@www hjava]f jar -cvf hbaseexam.jar hbaseexam.class 
added manifest 

adding: hbaseexam.class(in = 2189) (out= 1082) (deflated 505) 


[root@www hjava]# 1s 
hbaseexam.class hbaseexam.jar hbaseexam.java manifest.mf 
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将 生成 的 hbaseexam.jar 文件 加 载 至 Hadoop 集群 中 , 以 任务 的 形式 执行 。 加 载 的 命令 如 
下 所 示 : 


[root@www hjava]# hadoop jar hbaseexam.jar hbaseexam 


4. Eclipse 编译 与 运行 


通过 Eclipse 进行 Java 编程 开发 ， 无 疑 是 最 为 方便 的 ， 这 里 ， 先 在 Eclipse 中 创建 一 个 
hbaseTest 工程 ， 将 HBase 需要 的 Java 外 部 包 导 入 到 工程 中 ， 导 入 后 的 效果 如 图 7-6 所 示 。 




















Ü Properties for hbaseTest + 
type filter text Java Build Path 

Resource E 
Builders [iS Source |i Projects, = Libraries ^; Orderend Export 
Java Build Path JARs and class folders on the build path: 
Java Code Style. 5 activation-1.Ljar - CAUsersvadmin-IbNDesktopworkspe + | 
Java Compiler B asm-3.Ljar - CAUsers\admin-Ib\Desktop\workspace\ht 
Java Editor & commons-beanutils-1.7.0 jar - CG\Users\admin-Ib\Deskt Ada External AR. 
Javadoc Location .ommons-beanutils-core-1. 0 jar -Clan 和 TEE 














JavaScript Profiles :ommons-cli-1.2 jar - C:\Users\admin-Ib\Desktop\wor! 

Project References & commons-codec-1.7jar - CNUsersadmin-Ib\Desktop 

Run/Debug Setting: & commons-collections-3.2.1 jar - CA\Users\admin-lb\Des 

Spket Task Tags & commons-configuration-1.6.jar - CAUsersadmin-Ilb\De 

Task Tags E commons-digester-1.8 jar - CAUsers\admin-Ib\Desktop 

XML Syntax E commons-el-1.0 jar - CAUsers\admin-Ib\Desktop\work 
-ommons-httpclient-3.1 jar - CAUsers\admin-Ib\Desktc Edi 
:ommons-io-24jar - CAUsers\admin-lb\Desktop\work Remove 


commons-lang-2.6jar - CAUsers\admin-lb\Desktop\wc 
‘ommons-logging-1.1.1jar - CAUsers\admin-Ib\Desktc 
rommons-marh-2.1jar- CAUsersadmin-Ib\Desktop\w 
E commons-net-1.4.1jor- CAUsersadmin-IbxDesktopiw 
& findbugs-annotations-1.3.9-1 jar - CNUserswdmin4bvD 
i guava-12.01.jar - CAUsers\admin-Ib\Desktop\workspar 
E hadoop-core-1.2.1 jer - CAUsers\admin-Ib\Desktop\we 
F hamcrestcore-1.3jar - CAUserstadmin-IbADesktopwo: 
F hbase-client-0.98.3-hadoop1 jar - CAUserstadmin-IAD 
i hbase-common-0.98.3-hadoop1-tests jar - CNUsersvad 
i hbase-common-0.98.3-hadoop1 jar - CAUsersadmin -ll 
E hbase-examples-0.98.3-hadoop1 jer - CAUsers\admin-! 



































7-6 导入 HBase 外 部 包 
在 本 工程 中 新 建 一 个 名 为 hbaseexam.java 的 文件 ， 效 果 如 区 





7-7 所 示 。 











Ht Package Explorer 1 B® 7 D ub hbaseexamjava tt 
a i$ hbaseTest ù import java.io."; 
py daport org.apache.hadoop. conf.Configuration; 
5 inport org_apache hadoop hbase. client.HüaseAdnin; 
B ieii padano, inport org.apache,hadoop.hbase.HBaseConfiguration; 
iae inport org.apache.hadoop.hbase.HColumDescriptor; 
DD HBaseTestjava s 
» m JRE System Library JavasE 17 
» m Referenced Libraries E 
» Sjar import org.apache.hadoop. hbese-util.Bytes; 


public class hbaseexan ( 


private static Configuration hbaseconf - null; 

static ( 
Configuration testconf - new ConfigurationO; 
testconf. set("hbase.zookeeper.quorum", "1223d4byllaz"); 
testconf. set("hbase. zookeeper.property.clientPort", "2181"); 
hbaseconf = HBaseConfiguration.cregte(testconf); 








F 
^ public static void main (String [] agrs) { 
try C 
String strTableName = "exam tb"; 
PE Rut 





HBaseAdmin hbToble = new HüoseAdmin(hhaseconf); 
HTableDescriptor tbdesc = new HiableDescripior(strTableName); 
tbdesc. addFanily(new HcoluanDescriptor("math")); 
hbTable.createTable(tbdesc); 
Systen.out.println("Stetus: [Sucess] Create Table ok.. 





DE 





E TES 


在 Eclipse 中 运行 本 程序 ， 可 以 查看 执行 效果 ， 如 图 7-8 所 示 。 


B "hbaseexamjava = 7B E Outiine £ EN 
ù “import java.io."; laim BRUNON T 
inport org.apache.hadoop. conf Configuration; 4 9, hbaseexam 


import org.apache.hadoop.hbase.client„H8aseAdnin; 
inport org.apache.hadoop -hbase HBaseConfiguration; 
import org.apache.hadoop. hbase.HColuanDescriptor; 
import org.apache.hadoop. hbase.HTableDescriptor 
inport org. apache. hadoop. hbase. client.HTable; 
inport org.apache.hadoop. hbase.client.Put; 
inport orE-apache -hadoop-hbase-util-Bytes; 






=s hbaseconf: Configuration 
Dis] 
^ maintStingi]); void 





public class hbaseexam ( d 


private static Configuration hbaseconf = null; 
= static ( 

Configuration testconf = new Configura 
jse. zookeeper quorum". 





O; 
23dáby11aZ"); 

("hbase. zookeeper. property.clientPort", "2181"); 
hbaseconf = HüsseConfiguration.create(testconf); 





) 
Public static void main (String [] agrs) { 
tyi 

String strTableNane = "exan_tb"; 
MERA 
HBaseAdmin hbTable = new HBaseAdnin(hbaseconf); 
BSuppressWarnings("deprecation") 
MTableDescriptor tbdesc = new WrableDesceiptae(strTobleMone); 
tbdesc .addFani ly (new HColuanDescriptor("math")); 
hbTable.createTable(tbóesc); 
System.out.printin("Status: [Sucess] Create Table ok..."); 


Javadoc 'eciaration © Console } "xu wBEN T9185 
«terminated» hbaseexam nva Application] CAProgran Files\avaljre7\binYavaw.exe (2016-3-14 上 午 11-30:14] S 
16703714 11:30:19 INFU zookeeper.CIrentCnxn: Socket connection established to 1L230ADy.laZ7IZI-4U.126.264:218I, 

16/03/14 11.39.19 INFO zookeeper.ClientCmem: session establisheent complete on server: 1273dby1]a7/171.40.126.204:2181, sessionid = bx 
16/03/14 11:30:19 INFO zookeeper.ZooKeeper: Session: 0x1534349953e0012 closed 

16/03/14 11:30:19 INFO zookeeper.ClientCmm: EventThread shut dow 

Status: [Sucess] Create Table 
Status; [Sucess] add recored ol 











图 7-8 执行 效果 
5. 验证 与 测试 
根据 上 面 的 运行 效果 ， 这 里 通过 HBase Shell 验证 程序 执行 的 效果 ， 如 ， 查 看 记录 的 创 
建 情况 ， 如 下 所 示 : 


hbase (main) :005:0> scan 'exam tb' 

ROW COLUMN+CELL 

tom column=math:, timestamp=1457926074892, value=80 
1 row(s) in 0.0850 seconds 


7.2 ” 表 与 命名 空间 的 编程 


本 节 重 点 介绍 HBaseAdmin 类 ,基于 这 个 类 实现 对 命名 空间 的 创建 、 删 除 ， 以 及 表 的 创 
建 、 删 除 、 修 改 、 启 用 、 禁 用 等 管理 操作 。 

HBaseAdmin 在 使 用 时 需要 先 初 始 化 ， 即 先 创建 好 HBase 的 Configuration 类 ， 并 将 该 
类 以 实例 后 的 对 象 为 参数 传 入 HBaseAdmin 构造 函数 ， 这 样 ， 就 可 以 完成 对 HBase 集群 的 
管理 了 ， 方 法 原型 为 : 


HBaseAdmin (Configuration) 


具体 使 用 代码 如 前 面 7.1.4 小 节 的 示例 中 所 示 : 


import org.apache.hadoop.conf.Configuration; 





private static Configuration hbaseconf = null; 


HBaseAdmin admin = new HBaseAdmin (hbaseconf); 


7.21 表 的 查看 
HBaseAdmin 中 提供 了 非常 丰富 的 表 操 作 的 方法 。 
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以 表 信 息 查 看 为 例 ， 利 用 getTableNames() 方 法 ， 能 够 查看 当前 集群 中 的 所 用 表 ， 并 且 





可 以 在 参数 中 输入 正则 表达 式 ， 用 于 显示 满足 过 滤 条 件 的 表 ; 














利用 getTableDescriptor() 方 法 


可 以 以 表 名 为 参数 ， 查 看 某 张 表 的 具体 表 结构 描述 信息 (HTableDescriptor)， 当 然 , 也 可 以 指 


定 一 个 表 集 合 为 参数 ， 查 看 一 组 表 的 描述 信息 。 


类 HTableDescriptor 是 数据 表 信 息 描述 类 ， 它 可 以 存储 表 列 徐 、 属 性 信息 ， 支 持 增加 、 


删除 、 查 看 相关 信息 的 命令 ， 它 的 常用 方法 如 表 7-2 所 示 。 
表 7-2 表 描 述 类 的 常用 方法 


方法 名 称 


addFamily(HColumnDescriptor famil 

getColumnFamiliesi 
getConfiguration() 

getTableName() 


getValue(byte[] ke [s — 0 0 | 
removeFamily(byte[] column HColumnDescriptor 


setMaxFileSize(long maxFileSize) HTableDescriptor 


hasFamily(byte[] familyName 


描 g 

增加 列 簇 

获取 列 艇 信息 

获取 配置 信息 列表 
获取 表 名 称 

获取 元 数据 值 

删除 列 簇 

设置 Region 文件 存储 最 大 值 ， 
当 大 于 此 值 时 后 ， 触 发 分 裂 
是 否 包含 该 列 簇 


我 们 这 里 列 出 当前 集群 中 的 所 有 表 ， 并 且 输 出 指定 表 的 表 结构 信息 。 为 方便 学 习 ， 我 
们 编写 了 一 个 主 文件 HBaseBase， 本 次 要 完成 的 代码 封装 成 一 个 该 类 的 方法 ， 并 在 该 类 的 
main 方法 中 进行 调用 (后 面 所 用 的 每 一 个 演示 都 单独 封装 成 这 个 类 的 方法 ， 同 样 在 main 方 


法 中 进行 调用 )。 


在 main 方法 中 设计 了 一 个 循环 输入 的 方式 , 获取 要 添加 的 记录 信息 并 提交 。 当 输入 quit 





时 ， 

信息 。 输 入 完成 后 ， 按 Enter 键 提交 。 
示例 代码 如 下 所 示 : 
import 
import 
import 
import 
import 











java.io.BufferedReader; 
java.io.IOException; 
java.io.InputStreamReader; 
java.util.Map.Entry; 
java.util.Set; 


import 
import 
import 
import 
import 


-apache. 
-apache. 
-apache. 
-apache. 
-apache. 


hadoop.conf.Configuration; 


hadoop.hbase.KeyValue; 


9 动 退 出 。 输 入 list 时 ， 则 列 出 所 有 表 。 输 入 “show 表 名 ”时 ， 则 列 出 指定 表 的 结构 


hadoop.hbase.HBaseConfiguration; 
hadoop.hbase.HColumnDescriptor; 
hadoop.hbase.HTableDescriptor; 


数据 : 
«d 从 基础 理论 到 最 佳 实践 ” 


import org.apache.hadoop.hbase.MasterNotRunningException; 
import org.apache.hadoop.hbase.NamespaceDescriptor; 
import org.apache.hadoop.hbase.ServerName; 

import org.apache.hadoop.hbase.Clusterstatus; 

import org.apache.hadoop.hbase.RegionLoad; 

import org.apache.hadoop.hbase.ZooKeeperConnectionException; 
import org.apache.hadoop.hbase.client.Delete; 

import org.apache.hadoop.hbase.client.Get; 

import org.apache.hadoop.hbase.client.HBaseAdmin; 
import org.apache.hadoop.hbase.client.HTable; 

import org.apache.hadoop.hbase.ServerLoad; 

import org.apache.hadoop.hbase.client.HTablePool; 
import org.apache.hadoop.hbase.client.Put; 

import org.apache.hadoop.hbase.client.Result; 

import org.apache.hadoop.hbase.client.ResultScanner; 
import org.apache.hadoop.hbase.client.Scan; 

import org.apache.hadoop.hbase.filter.BinaryComparator; 
import org.apache.hadoop.hbase.filter.CompareFilter; 
import org.apache.hadoop.hbase.filter.QualifierFilter; 
import org.apache.hadoop.hbase.filter.ValueFilter; 
import org.apache.hadoop.hbase.util.Bytes; 


import com.sun.jersey.core.reflection.MethodList.Filter; 


/ / € X. HBase 的 基础 类 库 


public class HBaseBase ( 


// 定 义 基 础 配置 信息 

private static Configuration hbaseconf = null; 

static ( 
Configuration testconf - new Configuration(); 
testconf.set("hbase.zookeeper.quorum", "iZ23d4byllaZ"); 
testconf.set("hbase.zookeeper.property.clientPort", "2181"); 
hbaseconf = HBaseConfiguration.create (testconf); 

} 


// 此 处 ， 以 下 封装 各 类 方法 
// 查 看 所 有 表 列表 


public void showtblist() throws MasterNotRunningException, 
ZooKeeperConnectionException, IOException 
{ 
HBaseAdmin hbaseadmin = new HBaseAdmin (hbaseconf); 
1 String [] tblist = hbaseadmin.getTableNames(); 
for(int i-0; i«tblist.length; i++) 
System.out.println("table [" + i + "] name" + tblist[i]); 


} 
// 查 看 某 张 指定 表 的 表 结 构 
public void showtbscheme (String tbname) 
throws MasterNotRunningException, 
ZooKeeperConnectionException, IOException 
{ 
HBaseAdmin hbaseadmin = new HBaseAdmin (hbaseconf); 
2  if(hbaseadmin.tableExists (tbname) ) 
i 
3 HTableDescriptor tbdesc - 
hbaseadmin.getTableDescriptor (Bytes.toBytes (tbname)) ; 
System.out.println (tbdesc); 
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System.out.println("table name " + tbname + " is not exist!"); 
} 


public static void main (String[] args) throws Exception { 
// 此 处 进行 方法 调用 
HBaseBase hbasebase = new HBaseBase(); 
// 循 环 信息 提交 
4 BufferedReader reader - 
new BufferedReader (new InputStreamReader (System.in)); 
while (true) { 
System.out.print ("myhbase:»") ; 
String strread = reader.readLine(); 


5 if(strread.equals ("quit")) ( 
System.out.println("Bye Bye!"); 
return; 
} 
6 String[] str = strread.split(",| "); 
E if(str[0].equals("show") && str.length--2) ( 


// 处 理 show table 的 格式 请 求 
hbasebase.showtbscheme (str[1]); 
} 
8 else if(str[0].equals("list") && str.length--1) ( 
// 处 理 show table 的 格式 请 求 
hbasebase.showtblist(); 
} 
else { 

System.out.println("Input Error!"); 
) 


i 


代码 解析 与 运行 


代码 1 处 : 获取 一 个 表 名 的 数组 集合 ， 通 过 for 循环 输出 各 表 的 名 称 。 

代码 2 处 : 用 于 判断 是 否 存在 该 表 ， 如 果 存 在 ， 返 回 tte， 否则 返回 false。 

代码 3 处 : 获得 指定 表 的 HTableDescriptor 类 ， 该 类 中 存储 表 结 构 描 述 信息 。 

代码 4 处 : 从 键盘 中 获得 用 户 输入 。 

代码 5 Ab: 如 果 输 入 的 是 quit， 则 直接 退出 。 

代码 6 处 : 对 输入 进行 切 词 ， 通 过 “,” 或 空格 进行 分 隔 。 

代码 7 处 ， 如 果 检测 到 输入 的 格式 第 一 个 字符 串 为 show， 同 时 ， 整 个 切 词 后 的 数组 长 
度 为 2， 则 执行 查看 表 结 构 的 操作 。 

代码 8 处 ， 如 果 检 测 到 输入 的 格式 第 一 个 字符 串 为 list， 同 时 ， 整 个 切 词 后 的 数组 长 度 
为 1， 则 列 出 当前 所 有 表 的 操作 。 

示例 代码 的 运行 效果 如 下 所 示 : 


[root@www hjaval# java HBaseBase 
myhbase:>list 

table [0] name bigdata:bat tb 
table [1] name bigdata:emp sign tb 
table [2] name bigdata:emp tb 
table [3] name exam tb a 

table [4] name hbase test 

table [5] name tb2 ` 
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table [6] name tb3 

table [7] name testhbase 

myhbase:>show hbase_test 

'hbase test', {NAME => 'fl', DATA BLOCK ENCODING => 'NONE', BLOOMFILTER => 
'ROW', REPLICATION SCOPE => '0', COMPRESSION => 'NONE', VERSIONS => '1', 
MIN VERSIONS => '0', TTL => 'FOREVER', KEEP DELETED CELLS => 'false', 
BLOCKSIZE => '65536', IN MEMORY => 'false', BLOCKCACHE => 'true'), {NAME => 
NEST. DATA BLOCK ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION SCOPE 
=> '0', COMPRESSION => 'NONE', VERSIONS => '1', MIN VERSIONS => '0', TTL => 
'FOREVER', KEEP DELETED CELLS => 'false', BLOCKSIZE -» '65536', IN MEMORY 
=> 'false', BLOCKCACHE => 'true' H 


7.2.2 RANE 


HBaseAdmin 中 的 createTable(HTableDescriptor desc) 方 法 用 于 创建 表 ， 创 建 一 张 表 需要 
涉及 到 两 个 信息 类 ， 一 个 是 参数 HTableDescriptor desc， 用 于 描述 表 的 结构 ， 另 一 
HColumnDescriptor， 用 于 设 定 每 一 个 列 簇 信息 。 

类 HColumnDescriptor 是 列 簇 信息 ire 它 用 于 描述 列 禾 、 属 性 等 信息 ,支持 属性 值 
的 设 定 、 最 大 版 本 、 加 密 等 参数 管理 ， 它 常用 的 方法 如 表 7-3 所 示 。 


表 7-3” 列 簇 描述 类 常用 的 方法 








方法 名 称 返回 值 H x 
getConfiguration() Map-String, String> 获得 配置 信息 列表 
getEncryptionType String 获得 加 密 算法 名 称 
setEncryptionType(String algorithm HColumnDescriptor 设置 列 簇 加 密 算法 
removeConfiguration(String ke: void 删除 某 一 配置 信息 
setMaxVersions(int max Versions HColumnDescriptor 设置 最 大 版 本 数 
getNameAssString() String 获取 列 簇 名 称 
setTimeToLive(int timeToLive HColumnDescriptor 设置 TIL ff 
setDurability(Durability d) void 设置 WAL 级 别 








下 面 实现 了 一 个 方法 createhbasetable, 用 于 从 给 定 表 名 、 列 艇 信息 集合 去 创建 指定 的 一 
张 表 。 代 码 的 主要 流程 是 输入 表 名 、 表 列 簇 集合 ， 如 果 表 已 存在 ， 则 返回 ， 如 果 表 不 存在 ， 
则 构建 表 结 构 描述 文件 ， 并 执行 表 的 创建 。 

源 代码 如 下 所 示 : 

// 创 建 表 ， 指 定 表 名 ， 表 列 簇 信息 

public void createhbasetable (String tbname, String[] family) 

throws Exception { 
HBaseAdmin hbaseadmin = new HBaseAdmin (hbaseconf); 


if (hbaseadmin.tableExists(tbname)) { 
System.out.println("table ["«tbname-"]Exists!"); 








} 


else { 
x HTableDescriptor desc = new HTableDescriptor (tbname); 
for (int i-0; i«family.length; i++) ( 
2 desc.addFamily (new HColumnDescriptor(family[i]l)):; 


hbaseadmin.createTable (desc) ; 





第 7 章 HBase 编程 开发 《aa 


System.out.println("create table ["+tbname+"]Success!"); 


} 
} 


代码 解析 与 运行 

代码 1 处 : 初始 化 表 描 述 对 象 ， 并 以 表 名 为 传 入 参数 。 

代码 2 处 循环 获得 列 簇 名 称 ， 并 通过 addFamily 方法 添加 至 desc 表 描 述 对 象 中 。 

在 main 方法 中 , 利用 前 面 的 循环 输入 方法 , 构建 一 个 “create 表 名 , JR 1, I 2, 
IEN” RERE, RARE TF: 


1 else if(str[0] .equals ("create") && str.length>=3) { 
式 化 


// 先 格 

2 String[] strfamily = new String[str.length-2]; 
for(int i-2; i«str.length; i++) 

3 strfamily[i-2] = str[i]; 


/ / 4k EE create 请 求 
hbasebase.createhbasetable(str[1], strfamily); 


) 


代码 1 处 ， 当 用 户 输入 为 create， 以 及 输入 的 字符 串 数组 大 于 3 时 ， 则 执行 本 命令 。 

代码 2 处 : 创建 列 复数 组 集合 ， 长 度 为 用 户 输入 的 字符 串 数 组 长 度 减 去 2( 减 去 create 
与 表 名 )。 

代码 3 处 : 对 列 复数 组 集合 进行 赋值 。 

这 里 调用 create 命令 ， 创 建 一 张 表 名 为 student， 包 括 school. work 两 个 列 和 能 ， 创 建 完 
毕 后 ， 用 HBase Shell 命令 进行 验证 ， 运 行 效果 如 下 所 示 : 


[root@www hjava]# java HBaseBase 
myhbase:>create student, school,work 
create table [student] Success! 
[root@www hjava]# hbase shell 


hbase (main) :001:0> list 'student' 
TABLE 

student 

1 row(s) in 1.0630 seconds 


7.2.3” 表 的 删除 


HBaseAdmin 中 的 deleteTable() 方 法 可 用 于 删除 一 组 指定 表 ， 或 删除 符合 某 个 正则 表达 
式 条 件 的 一 组 表 ， 删 除 表 之 前 ， 需 要 用 disableTable() 方 法 禁用 该 表 。 

下 面 实现 了 一 个 方法 deletehbasetable, 用 于 删除 给 定 的 表 名 , 代码 的 主要 流程 是 输入 表 
名 ， 如 果 表 已 存在 ， 则 执行 先 禁用 后 删除 的 操作 ， 如 果 不 存在 ， 则 返回 。 

源 代码 如 下 所 示 : 


// 删 除 表 ， 指 定 表 名 
public void deltehbasetable (String tbname) throws Exception { 
HBaseAdmin hbaseadmin = new HBaseAdmin (hbaseconf); 
if (hbaseadmin.tableExists(tbname)) { 
hbaseadmin.disableTable (tbname); 
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hbaseadmin.deleteTable (tbname); 
} 
else ( 
System.out.println("table ["+tbname+"] is not Exists!"); 
} 
} 


代码 解析 与 运行 


在 main 方法 中 ， 利 用 前 面 的 方法 ， 构 建 一 个 “delete 表 名 ”的 命令 集合 ， 示 例 代 码 如 
下 所 示 : 





else if(str[0] .equals ("delete") && str.length==2) { 
// 处 理 delete table 请 求 
hbasebase.deltehbasetable (str[1]); 


删除 之 前 创建 的 student 表 ， 同 时 利用 list 命令 进行 验证 ， 运 行 效果 如 下 所 示 : 


[root@www hjava]# java HBaseBase 
myhbase:»delete student 

student is deleted! 
myhbase:»list 

table [0] name bigdata:bat tb 
table [1] name bigdata:emp sign tb 
table [2] name bigdata:emp tb 
table [3] name exam tb 

table [4] name hbase test 

table [5] name tb2 

table [6] name tb3 

table [7] name testhbase 


7.2.4” 表 的 修改 


对 HBase 表 结 构 的 修改 ， 主 要 体现 于 列 簇 的 增加 或 删除 ， 通 过 HBaseAdmin 中 的 
addColumn 方法 ,可 以 实现 对 列 簇 的 增加 , 方法 中 的 参数 需要 指定 表 名 ,以 及 添加 的 列 簇 结 
构 描 述 信 息 ， 用 HColumnDescriptor 类 进行 描述 ; 删除 列 簇 通过 deleteColumn 方法 , 传 入 的 
参数 包括 表 名 与 要 列 删除 的 列 簇 名 。 

下 面 设 定 了 一 个 方法 alterhbasefamily(String tbname, String family, boolean flag)， 通 过 
flag 进行 控制 ， 当 为 true 时 ， 执 行 增加 列 簇 操作 ， 为 false 时 ， 执 行 删除 列 簇 操作 。 

源 代码 如 下 所 示 : 


// 修 改 表 ，flag X true 时 增加 此 列 徐 ,为 false 时 删除 此 列 簇 
public void alterhbasefamily(String tbname, String family, boolean flag) 
throws Exception ( 
HBaseAdmin hbaseadmin - new HBaseAdmin (hbaseconf); 
if (hbaseadmin.tableExists (tbname)) 
t 








$ hbaseadmin.disableTable (tbname) ; 
HColumnDescriptor columndesc = new HColumnDescriptor (family); 
if (flag) { 


hbaseadmin.addColumn (tbname, columndesc); 
System.out.println("add family [" + family + "] Success!"); 
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} eise ( 
hbaseadmin.deleteColumn (tbname, family); 
System.out.println("delete family [" + family + "] Success!"); 
} 
2 hbaseadmin.enableTable (tbname); 


} 
else 
{ 
System.out.println("table [" + tbname + "] is not Exists!"); 
) 
) 


代码 解析 与 运行 


代码 1 处 : 在 修改 表 前 ， 先 禁用 此 表 。 

代码 2 处 : 修改 完毕 后 ， 启 动 此 表 。 

在 main 方法 中 调用 该 方法 ,实现 对 列 簇 的 新 增 与 删除 命令 ,其 中 新 增 命令 为 “alteradd 
表 名 , USE" . 删除 命令 为 “alterdel RZ, 列 徐 ”， 上 述 命令 单 次 只 能 操作 一 个 列 簇 。 示 
例 代 码 如 下 : 





else if(str[0].equals("alteradd") && str.length--3) ( 
// 处 理 alter add family 请 求 
hbasebase.alterhbasefamily(str[1], str[2], true); 

) 

else if(str[0].equals("alterdel") && str.length--3) ( 
// 处 理 alter delete family 请 求 
hbasebase.alterhbasefamily(str[1], str[2], false); 

) 


实现 对 student 表 ( 注 意 在 使 用 前 先 通过 create 命令 创建 ) 原 有 work 列 簇 的 删除 ， 同 时 ， 
新 增 info 列 徐 ， 最 后 输出 修改 后 的 表 结 构 ， 运 行 效果 如 下 所 示 : 


[root@www hjava]f java HBaseBase 

myhbase:»alterdel student,work 

delete family [work] Success! 

myhbase:»alteradd student,info 

add family [info] Success! 

myhbase:»show student 

'student', (NAME => 'info', DATA BLOCK ENCODING => 'NONE', BLOOMFILTER => 
'ROW', REPLICATION SCOPE => '0', COMPRESSION => 'NONE', VERSIONS => '1', 
MIN VERSIONS => "oT, TTL => 'FOREVER', KEEP DELETED CELLS => 'false', 
BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}, {NAME => 
'school', DATA BLOCK ENCODING => 'NONE', BLOOMFILTER => 'ROW', 
REPLICATION_SCOPE => '0', COMPRESSION => 'NONE', VERSIONS => '1', 
MIN_VERSIONS => '0', TTL => 'FOREVER', KEEP DELETED CELLS => 'false', 
BLOCKSIZE => '65536', IN MEMORY => 'false', BLOCKCACHE => 'true'} 





关于 修改 表 结 构 。 

(D 通过 HBaseAdmin 的 modifyTable(byte[] tableName, HTableDescriptor htd) 方 法 ， 与 
HTableDescriptor 中 的 addFamily(HColumnDescriptor). removeFamily(byte[] column) 配 合 也 
能 够 实现 表 结 构 的 修改 。 
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© 在 修改 表 结 构 前 ， 要 先 禁用 表 ， 修 改 完毕 后 再 启用 表 ， 以 防止 修改 期 间 的 数据 修 
改 ， 另外， 在 修改 前 ， 要 确认 数据 是 否 需要 保留 。 


7.25 ”命名 空间 

HBaseAdmin 中 ， 支 持 命名 空间 的 编程 管理 ， 可 以 实现 对 命名 空间 的 信息 查看 、 创 建 、 
删除 、 描 述 信息 修改 等 操作 。 

1. 命名 空间 的 查看 


查看 命名 空间 的 方法 为 listrNamespaceDescriptors()， 调 用 该 方法 返回 当前 所 有 命名 空间 
(NamespaceDescriptor) 的 列表 。 
类 NamespaceDescriptor 是 命名 空间 描述 类 ， 它 包括 命名 空间 名 称 、 命 名 空间 表 、 命 名 
空间 各 类 元 数据 ， 以 及 管理 上 述 信息 的 方法 。 它 常用 的 方法 如 表 7-4 所 示 。 
表 7-4 命名 空间 描述 类 的 常用 方法 
方法 名 称 i 
创建 命名 空间 


设置 命名 空间 属性 键 与 值 











删除 某 一 配置 信息 
获得 配置 信息 列表 
获取 指定 配置 键 的 值 
获取 命名 空间 名 称 





这 里 实现 一 个 查看 当前 集群 所 有 命名 空间 ， 以 及 每 个 命名 空间 描述 信息 的 示例 。 源 代 
码 如 下 所 示 : 
// 查 看 所 有 命名 空间 


public void listhbasenamespace() throws Exception { 
HBaseAdmin hbaseadmin = new HBaseAdmin (hbaseconf); 
NamespaceDescriptor[] nslist = hbaseadmin.listNamespaceDescriptors(); 
for (int i-0; i«nslist.length; i++) ( 
System.out.println( 
"NameSpace ID [" + i - "] " +" name: " + nslist[i].getName()); 
i System.out.println( 
"descriptor : " + nslist[i].getConfiguration().toString()); 


) 


代码 1 处 用 于 查看 指定 命名 空间 的 配置 描述 信息 。 在 man 方法 中 创建 list namespace 
命令 调用 该 方法 ， 调 用 代码 如 下 所 示 : 


Bio if(str[0].equals ("list eap Pace") && str.length--1) ( 
// 处 理 list namespace 的 格式 请 


hbasebase. Ner cusan (s 


运行 效果 如 下 所 示 : 
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[root@www hjaval# java HBaseBase 
myhbase:>list namespace 

NameSpace ID T0] name: bigdata 
descriptor: (creattime-2016-01-30] 
NameSpace ID [1] name: default 
descriptor: {} 

NameSpace ID [2] name: hbase 
descriptor: {} 


2. 命名 空间 的 创建 


创建 命名 空间 的 方法 是 createNamespace(NamespaceDescriptor descriptor), iX 8f] 
NamespaceDescriptor 用 于 定义 命名 空间 ， 可 包括 的 信息 有 命名 空间 名 称 、 命 名 空间 描述 。 

下 面 实现 一 个 方法 ， 用 于 创建 指定 名 称 的 命名 空间 ， 以 及 添加 一 条 描述 信息 。 在 创建 
命名 空间 之 前 ， 应 该 先 要 判断 命名 空间 是 否 已 存在 ， 因 此 ， 这 里 先 实现 一 个 查找 指定 的 命 
名 空间 是 否 存 在 的 方法 findhbasenamespace(String nsname), 该 方法 基于 listhbasenamespace() 
方法 改写 。 

源 代码 如 下 所 示 : 

// 查找 某 一 个 命名 空间 是 否 存在 


public boolean findhbasenamespace (String nsname) throws Exception 
{ 
HBaseAdmin hbaseadmin = new HBaseAdmin (hbaseconf); 




















NamespaceDescriptor[] nslist = hbaseadmin.listNamespaceDescriptors(); 
for(int i-0; i«nslist.length; i++) ( 
E if (nsname.equals (nslist[i].getName()) 
return true; 
) 
return false; 
} 


// 创 建 指定 的 命名 空间 
public void createhbasenamespace (String nsname, String key, 
String keyvalue) throws Exception { 
HBaseAdmin hbaseadmin = new HBaseAdmin (hbaseconf); 
if(this.findhbasenamespace (nsname)) { 
System.out.println("namespace " + nsname + " is exists!"); 
) 


else ( 
2 NamespaceDescriptor ns = 
NamespaceDescriptor.create (nsname).build(); 
3 ns.setConfiguration(key, keyvalue); 


hbaseadmin.createNamespace (ns); 
System.out.println("create namespace " + nsname + " ok!"); 


) 


代码 1 处 : 用 于 匹配 指定 的 命名 空间 是 否 存在 。 

代码 2 处 : 用 于 构造 命名 空间 。 

代码 3 处 : 用 于 填充 命名 空间 描述 信息 。 

在 main 方法 中 创建 create_namespace 命名 空间 名 称 、 属 性 、 属 性 值 的 命令 ， 并 调用 创 
建 命名 空间 方法 。 

相关 的 代码 如 下 所 示 : 
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else if(str[0].equals("create namespace") && str.length--4) { 
// 处 理 create namespace 的 格式 请 求 
hbasebase.createhbasenamespace(str[1], str[2], str[31); 


这 里 创建 一 个 名 为 ns, 属性 信息 为 <“desc”: "create namespace" >H ái 44 22 [8], 并 用 HBase 
Shell 命令 进行 验证 。 运 行 效果 如 下 所 示 : 


[root@www hjava]f java HBaseBase 
myhbase:»create namespace ns,desc,create namespace 
create namespace ns ok! 


hbase (main) :003:0> describe namespace 'ns' 
DESCRIPTION 

(NAME => 'ns', desc => 'create namespace'] 
1 row(s) in 0.0230 seconds 


3. 命名 空间 的 修改 
利用 modifyNamespace(NamespaceDescriptor descriptor) 可 以 修改 命名 空间 的 属性 信息 ， 


通过 descriptor 设 定 要 覆盖 的 属性 信息 ， 即 可 以 完成 修改 操作 。 
下 面 实现 一 个 命名 空间 修改 的 方法 ， 输 入 参数 包括 命名 空间 名 称 、 要 覆盖 的 属性 键 与 


值 ， 源 代码 如 下 所 示 : 
// 修 改 指定 的 命名 空间 


public void modifyhbasenamespace (String nsname, String key, String keyvalue) 
throws Exception { 

HBaseAdmin hbaseadmin = new HBaseAdmin (hbaseconf); 

if(this.findhbasenamespace (nsname)) { 
NamespaceDescriptor ns = 

NamespaceDescriptor.create (nsname).build(); 

ns.setConfiguration(key, keyvalue); 
hbaseadmin.modifyNamespace (ns) ; 
System.out.println("modify namespace " + nsname + " ok!"); 

















) 
else ( 
System.out.println("namespace " + nsname + " is not exists!"); 


} 
} 


在 main 方法 中 创建 一 个 “modify_ namespace 命名 空间 ,属性 ,属性 值 ” 的 命令 ， 调 用 
该 方法 。 相 关 的 代码 如 下 所 示 : 
eise if(str[0].equals("modify namespace") && str.length--4) ( 


// sit El modify namespace 的 格式 请 求 


hbasebase.modifyhbasenamespace(str[1], str[2], str[3]); 
p 


修改 ns 命名 空间 属性 信息 ， 将 “desc 属性 ” 改 成 “create 创建 时 间 ”， 并 设 定 值 为 
20160123， 并 借助 HBase Shell 命令 进行 验证 。 运 行 效果 如 下 所 示 : 


[root@www hjava]# java HBaseBase 
myhbase:»modify namespace ns,create,20160123 


modify namespace ns ok! 
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hbase (main) :002:0> describe namespace 'ns' 
DESCRIPTION 

(NAME => 'ns', create => '20160123'] 

1 row(s) in 0.0120 seconds 


4. 命名 空间 的 删除 


删除 命名 空间 的 方法 是 deleteNamespace(String name), 这 里 实现 一 个 删除 指定 命名 空间 
的 方法 ， 源 代码 如 下 所 示 : 
// 删 除 指定 的 命名 空间 


public void deletehbasenamespace (String nsname) throws Exception ( 
HBaseAdmin hbaseadmin - new HBaseAdmin (hbaseconf); 
if(this.findhbasenamespace (nsname)) ( 

1 hbaseadmin.deleteNamespace (nsname); 


System.out.println("delete namespace " + nsname + " ok!"); 
} 
else { 


System.out.println ("namespace " + nsname + " is not exists!"); 
} 
} 


代码 1 处 ， 执 行 删除 命名 空间 的 操作 。 


在 main 方法 中 ， 创 建 “delete namespace 命名 空间 ”的 命令 ， 并 调用 该 方法 。 相 关 代 
码 如 下 所 示 : 


else if(str[0].equals("delete namespace") && str.length--2) { 
// 处 理 delete namespace 的 格式 请 求 
hbasebase.deletehbasenamespace (str[1]); 

} 


这 里 删除 ns 命名 空间 ， 并 借助 前 面 编写 的 lit namespace 命令 进行 验证 。 运 行 效果 如 
下 所 示 : 


[root@www hjava]# java HBaseBase 
myhbase:>delete namespace student 
delete namespace ns ok! 
myhbase:>list namespace 

NameSpace ID [0] name: bigdata 
descriptor: (creattime-2016-01-30] 
NameSpace ID [1] name: default 
descriptor: () 

NameSpace ID [2] name: hbase 
descriptor: {} 


7.3 数据 编程 


HTable 类 是 HBase 中 重要 的 表 数据 操作 类 ， 拥 有 对 数据 增加 、 删 除 、 修 改 、 查 询 等 的 
接口 ， 使 用 HIable 类 前 需要 先 初始 化 ， 所 需要 的 参数 是 HBase 集群 连接 配置 文件 ， 以 及 数 
HRB o 

相关 的 代码 如 下 所 示 : 


US QU 


9 


—9 


9g«--- 


HTable htb - new HTable(hbaseconf, tbname); 











类 HTable 的 常 




















表 7-5 HTable 的 常用 方法 


//tbname 是 表 名 称 


方法 如 表 7-5 所 示 ， 本 小 节 将 围绕 数据 的 增加 、 删 除 、 修 改 、 查 询 、 


过 滤 等 操作 进行 实例 讲解 。 




















方法 名 称 返回 f& 描 述 

append(Append append) Result 追加 数据 
batch(List<? extends Row> actions, void 批量 执行 增加 、 追 加 、 删 除 、 修 

Object[] results) 改 等 操作 
delete(Delete delete) void 删除 某 一 列 或 行 的 值 
exists(Get get) boolean 判断 某 列 是 否 存在 
get(Get geb) Result 获得 一 行 或 一 行 某 列 簇 、 某 列 的 

数据 
getConfiguration() Configuration 获得 表 配 置 对 象 
getName() TableName 获得 表 名 称 
getScanner(byte[] family) ResultScanner 获得 指定 列 簇 的 结果 集 
getScanner(Scan scan) ResultScanner 通过 scan 对 象 获取 全 表 结 果 集 
getTableDescriptor() HTableDescriptor 获得 表 描 述 信息 
increment(Increment increment) Result 3nd rp S y e RR 
put(Put put) void 增加 数据 
setWriteBufferSize(long writeBufferSize) void 设置 写 缓存 的 大 小 
close() void 关闭 表 连 接 
7.3.1 数据 的 增加 


调用 HTable 的 put(Put put) 方 法 , 来 提交 数据 , 传 入 参数 Put 类 是 需要 实例 化 数据 信息 ， 


方法 名 称 


表 7-6 Put 类 常用 的 方法 


通常 包括 行 键 值 、 列 徐 、 字 段 名 、 字 段 值 等 信息 ， 当 然 ， 也 可 以 加 入 时 间 戳 ， 如 果 不 加 时 
间 戳 ， 则 系统 会 自动 引入 。 类 Put 用 于 格式 化 要 提交 的 数据 ， 它 的 常用 方法 如 表 7-6 所 示 。 


描 xk 





add(Cell kv) 


addColumn(byte[] family, byte[] qualifier, 


byte[] value) 


Put 


增加 一 个 列 值 ，Cell 是 一 个 列 值 对 象 


向 指定 列 簇 中 的 某 列 增加 值 





get(byte[] family, byte[] qualifier) 


List<Cell> 


获得 指定 列 徐 ， 指 定 列 的 值 集合 





has(byte[] family, byte[] qualifier) 


boolean 


判断 列 簇 中 是 否 包括 某 列 











setACL(Map<String, Permission> perms) 设 定 权 限 
setAttribute(String name, byte[] value) 设置 属性 
setTTL(long ttl) 设置 TIL 值 
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这 里 实现 一 个 insertsinglerecord 方法 ， 能 够 实现 一 列 记录 的 添加 ， 源 代码 如 下 所 示 : 
// 插入 一 列 记录 


public void insertsinglerecord(String tbname, String rowKey, 
String familyname, String columnname, String value) throws Exception { 


try { 
HTable htb = new HTable (hbaseconf, tbname); 
1 Put put = new Put (Bytes.toBytes (rowKey)); 
2 put.add(Bytes.toBytes(familyname), 


Bytes.toBytes (columnname) , Bytes.toBytes (value)); 
htb.put (put) ; 
System.out.println("Status: [Sucess] insert recored " 
+ rowKey + " to table " + tbname + " ok..."); 
) catch (IOException e) ( 
e.printStackTrace(); 
) 


代码 解析 与 运行 


在 main 方法 中 创建 一 个 “put 表 名 , 行 键 值 , 列 簇 名 , 字段 名 ”的 命令 ， 并 调用 数据 增 
加 方法 。 源 代码 如 下 所 示 : 


else if(str[0].equals("put") && str.length--6) ( 

// 处 理 put 请 求 

hbasebase.insertsinglerecord(str[1], str[2], str[3], str[4], str[5]); 
) 


测试 并 运行 ， 这 里 提交 五 列 记 录 ， 同 时 ， 借 助 HBase Shell 查看 表 记 录 进 行 验证 ， 效 果 
如 下 所 示 : 


[root@www hjava]# java HBaseBase 

myhbase:»put student,1,info,age,20 

Status: [Sucess] insert recored 1 to table student ok... 
myhbase:>put student,1,info,name,tom 

Status: [Sucess] insert recored 1 to table student ok... 
myhbase:»put student,2,info,,student information 

Status: [Sucess] insert recored 2 to table student ok... 
myhbase:»put student,2,info,age,23 

Status: [Sucess] insert recored 2 to table student ok... 
myhbase:»put student,2,info,name,tom 

Status: [Sucess] insert recored 2 to table student ok... 


hbase (main) :008:0> scan 'student' 





ROW COLUMN+CELL 

à column-info:age, timestamp-1459132877213, value-20 

1 column-info:name, timestamp-1459132885102, value-tom 

2 column-info:, timestamp-1459132909940, value-student information 
2 column-info:age, timestamp-1459133055925, value-23 

2 column-info:name, timestamp-1459133106700, value-tom 


2 row(s) in 0.0300 seconds 
利用 本 方法 ,除数 据 增加 之 外 , 还 可 以 完成 数据 的 修改 , 例如 , 当前 行 键 值 2 的 info:name 
为 ttm， 要 改 成 jim， 利 用 本 方法 即 可 完成 操作 ， 如 下 所 示 : 


[root@www hjava]# java HBaseBase 
myhbase:»put student,2,info,name,jim 


Jem 
从 基础 理论 到 最 佳 实践 
ys 


Status: [Sucess] insert record 2 to table student ok...... 
hbase (main):016:0» get 'student','2' 


COLUMN CELL 

info: timestamp-1459132909940, value-student information 
info:age timestamp-1459133055925, value-23 

info:name timestamp-1459135434239, value-jim 


3 row(s) in 0.0220 seconds 


小 总 结 
关于 行 锁 。 
@ 大 规模 业务 并 发 请 求 时 , 可 借助 显示 行 锁 RowLock 进行 控制 , 以 确保 数据 的 一 致 性 。 
@ 在 数据 操作 前 调用 lockRow， 在 完成 操作 后 调用 unlockRow。 
(3) hbase-site.xml 中 的 参数 hbase.regionserver.lease.period 用 于 控制 行 锁 默 认 锁 定时 间 ， 
默认 行 锁 的 时 间 为 1 分钟。 


7.32 ”单行 查询 


调用 HTable 的 get(Get get) 方 法 ， 可 以 查询 某 一 行 所 有 列 簇 的 数据 ， 传 入 的 参数 Get 需 
要 指定 行 键 值 。 类 Get 用 于 格式 要 查询 的 元 数据 ， 通 过 此 对 象 设 定 查 询 条 件 。 常 用 方法 如 
表 7-7 所 示 。 
表 7-7 Get 类 的 常用 方法 





方法 名 称 返回 值 描 g 
addFamily(byte[] family) Get WE PURI A 
addColumn(byte[] family, byte[] qualifier) Get 设 定 列 簇 以 及 列 名 称 
getMaxVersions() int 获得 最 大 版 本 数 
getRow() byte| 获得 某 一 行 数据 
setACL(Map<String, Permission> perms) Get 设 定 权限 
setColumnFamilyTimeRange(byte[] cf, long minStamp, Get dig fif] fI RN RT REALE E) 

long maxStamp) 

setFilter(Filter filter) Get 设置 过 滤器 


这 里 实现 一 个 getsinglerecord 方法 ， 能 够 实现 通过 输入 表 名 、 行 键 值 ， 查 询 获得 结果 记 
录 ， 源 代码 如 下 所 示 : 
// 查 询 一 行 记录 
public void getsinglerecord(String tbname, String rowkey) 
throws IOException ( 
HTable htb = new HTable(hbaseconf, Bytes.toBytes (tbname)); 
Get get = new Get(Bytes.toBytes (rowkey)) ; 
1 Result res = htb.get (get); 
System.out.println("familyNtcolumnNtvalueNtversionNttimstamp "); 
2 for (KeyValue kv : res.list()) { 
System.out.print (Bytes.toString(kv.getFamily())); 
System.out.print("Nt" + Bytes.toString(kv.getQualifier())); 
System.out.print("Nt" + Bytes.toString(kv.getValue())); 
System.out.print("Nt" + kv.getMvccVersion()); 
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System.out.println("\t" + kv.getTimestamp()); 


$ 


代码 解析 与 运行 

代码 1 处 : 获得 查询 后 的 结果 集合 。 

代码 2 处 : 循环 提取 每 个 列 数据 。 

在 main 方法 中 ， 创 建 “get 表 名 , 行 键 值 ”的 命令 ， 并 调用 前 面 的 单行 查询 方法 。 源 
代码 如 下 所 示 : 


else if(str[0].equals("get") && str.length--3) 


/ / El get 请 求 
hbasebase.getsinglerecord(str[1], str[21); 
} 
else { 


} 


这 里 查询 前 面 提交 的 数据 ， 效 果 如 下 所 示 ; 
[root@www hjava]f java HBaseBase 
myhbase:»get student,1 

family column value version timstamp 
info age 20 0 1459132877213 

info name tom 0 1459132885102 
myhbase:»get student,2 

family column value version timstamp 
info student information 0 1459132909940 
info age 23 0 1459133055925 

info name jim 0 1459135434239 


7.33 ”集合 查询 

调用 HTable 的 getScanner(Scan scan) 方 法 , 可 以 查询 表 集 合 的 数据 , 需要 传 入 的 参数 为 
Scan 类 ， 在 Scan 类 里 面 ， 可 以 指定 全 部 的 表 数 据 ， 也 可 以 指定 某 行 键 值 区 间 的 数据 。 

类 Scan 用 于 格式 化 要 查询 数据 集合 的 数据 ， 通 过 此 对 象 设 定 集合 查询 条 件 。 它 常用 的 




















方法 如 表 7-8 所 示 。 
表 7-8 Scan 类 的 常用 方法 
方法 名 称 Hi x 
addFamily(byte[] family) dog PURI PR 
addColumn(byte[] family, byte[] qualifier) 设 定 列 簇 以 及 列 的 名 称 
getBatch() 获取 数据 集合 的 条 数 
getFamilies() 获取 查询 到 的 所 有 列 簇 名 称 
getMaxVersions() 获得 最 大 版 本 数 
setStartRow(byte[] startRow) 设 定 查询 起 始 行 
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续 表 
方法 名 称 描 iu 

setStopRow(byte[] startRow) 设 定 查询 结束 行 
setACL(Map-String, Permission> perms) 设 定 权限 
setTimeRange(long minStamp, long maxStamp) 设 定 查 询 时 间 改 区 间 
setBatch(int batch) 设置 nextO 返 回 的 记录 条 数 
setFilter(Filter filter) 设置 过 滤器 
setRowPrefixFilter(byte[] rowPrefix) 设置 行 过 滤器 

这 里 实现 一 个 getresultset 方法 ， 能 够 实现 从 输入 表 名 、 行 键 值 区 间 获 得 结果 集合 记录 ， 

源 代码 如 下 所 示 : 
// 集 合 查询 


public void getresultset(String tbname, String control, String startrowkey, 
String endrowkey) throws IOException ( 
HTable htb = new HTable (hbaseconf, Bytes.toBytes (tbname)); 
Scan scan - new Scan(); 
if(control.equals ("region")) ( 
* Scan.setStartRow (Bytes.toBytes (startrowkey)); 
Scan.setStopRow (Bytes.toBytes (endrowkey)); 


N 


} 
ResultScanner res = null; 
try ( 
res = htb.getScanner (scan); 
for (Result r : res) ( 
for (KeyValue kv : r.list()) ( 
System.out.println("row:" + Bytes.toString(kv.getRow())); 
System.out.println( 

"family:" + Bytes.toString(kv.getFamily())); 
System.out.println( 

"qualifier:" + Bytes.toString(kv.getQualifier())); 
System.out.println( 

"value:" + Bytes.toString(kv.getValue())); 
System.out.println("timestamp:" + kv.getTimestamp()); 
System.out.println("--------------------------------- s 

H 
$ 
} finally { 
res.close(); 
) 
} 


代码 解析 与 运行 

代码 1 处 : 用 于 设 定 查 询 区 间 的 初始 行 键 值 。 

代码 2 处 : 用 于 设 定 查询 区 间 的 结束 行 键 值 。 

在 main 方法 中 设 定 的 输入 格式 为 “scan 表 名 ”或 “scan 表 名 , 初始 行 键 值 ， 结 束 行 键 
值 ”的 命令 ， 并 调用 查询 方法 。 

源 代 码 如 下 所 示 : 





else if(str[0].equals("scan") && str.length--2) 
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// 处 理 scan 请 求 
bbasebase.getresultset(str[1], "", "", ""); 
} 
else if(str[0].equals("scan") && str.length--4) 


// 处 理 scan 请 求 
hbasebase.getresultset(str[1], "region", str[2], str[31]); 
) 


测试 并 运行 ， 这 里 查询 前 面 提交 的 数据 ， 效 果 如 下 所 示 : 


[rootéwww hjava]# java HBaseBase 
myhbase:»scan student 
row:l info:age value:20 timestamp:1459132877213 





row:l info:name value:tom timestamp:1459132885102 

row:2 info: value:student information timestamp:1459132909940 
row:2 info:age value:23 timestamp:1459133055925 

row:2 info:name value:jim timestamp:1459135434239 


myhbase:»scan student,1,1 
row:l info:age value:20 timestamp:1459132877213 
row:l info:name value:tom timestamp:1459132885102 


7.8.4 过 滤器 


前 面 提 到 的 单行 查询 、 集合 查询 是 按照 行 键 值 或 者 列 能 、 字段 进行 数据 显示 ， 设 想 ， 
在 大 规模 的 HBase 集群 数据 中 去 执行 这 样 的 查询 ， 将 会 极为 低 效 ， 因 为 返回 的 结果 集合 会 
是 比较 庞大 的 ， 不 利于 数据 处 理 与 分 析 。 

在 HBase 中 ， 没 有 提供 像 SQL 查询 语句 那样 方便 的 接口 ， 但 为 方便 数据 精细 化 操作 ， 
提供 了 过 滤器 这 样 的 接口 , 即 对 于 查询 结果 , 按 指定 的 方法 进行 过 滤 后 返回 结果 集 , 在 Get. 
Scan 中 均 支 持 过 滤器 。 

过 滤器 的 调用 需要 实例 化 Filter 类 , 通过 不 同 的 过 滤器 进行 实例 化 以 达到 不 同 的 过 滤 目 
的 ， 实 例 化 后 ， 在 Get 或 Scan 中 通过 setFilter 方法 加 载 过 滤器 ， 过 滤器 的 基 类 是 Filter。 在 
Ee 中 支持 多 种 过 滤器 机 制 ， 比 较 常 见 的 是 比较 过 滤器 CompareFilter 类 ， 在 该 类 中 定义 

常用 的 比较 运算 符 ， 即 用 设 定 的 值 进行 比较 ， 满 足 条 件 的 记录 被 返回 ， 所 有 比较 运算 符 
E 7-9 Biz 























表 7-9 比较 运算 符 
名 称 描 x 

CompareFilter.CompareOp.EQUAL 等 于 
CompareFilter.CompareOp. GREATER XR 
CompareFilter.CompareOp.GREATER. OR EQUAL XTST 
CompareFilter.CompareOp.LESS 小 于 
CompareFilter.CompareOp.LESS OR. EQUAL 小 于 或 等 于 
CompareFilter.CompareOp.NO_OP 排除 一 切 值 
CompareFilter.CompareOp.NOT EQUAL 不 等 于 


除 上 面 的 比较 运算 符 外 ,还 定义 了 比较 器 ,常见 的 比较 器 包括 : BinaryComparator( 字 节 


i 
eps 从 基础 理论 到 最 佳 实践 


比较 器 )、BinaryPrefixComparator( 字 节 前 级 比较 器 )、RegexStringComparator( 正 则 表达 式 比 
较 器 )、NullComparator( 空 值 比较 器 )、BitComparator( 比 特 位 比较 器 )、SubstringComparator( 子 


串 比 较 器 ) 等 。 

这 里 以 字段 名 称 过 滤器 (QualifierFilter) 为 例 , 设计 一 个 方法 , 返回 指定 字段 名 的 数据 集 。 
相关 源 代码 如 下 所 示 : 

// 字 段 名 称 比较 过 滤器 查询 


public void getfilterresult(String tbname, String column) 
throws IOException { 
HTable htb = new HTable (hbaseconf, Bytes .toBytes (tbname)); 
Scan scan = new Scan(); 
1 QualifierFilter fr - new QualifierFilter( 
CompareFilter.CompareOp.EQUAL, 
new BinaryComparator (Bytes.toBytes (column))); 
2  scan.setFilter((org.apache.hadoop.hbase.filter.Filter)fr); 
ResultScanner res - null; 
try ( 
res = htb.getScanner (scan); 
for (Result r : res) ( 
for (KeyValue kv : r.list()) ( 
System.out.print("row:" + Bytes.toString(kv.getRow())); 
System.out.print("Nt" + Bytes.toString(kv.getFamily())); 
System.out.print(":" + Bytes.toString(kv.getQualifier())); 
System.out.println( 
" value:" + Bytes.toString(kv.getValue())); 
} 
} 
} finally { 
res.close(); 
j 
) 


代码 解析 与 运行 

代码 1 处 : 用 于 设 定 QualifierFilter 过 滤器 ， 该 过 滤器 的 作用 是 输出 所 有 字段 名 为 变量 
column 的 数据 。 

代码 2 处 : 设 定 过 滤器 。 

在 main 方法 中 设 定 的 输入 格式 为 “quafilter 表 名 , 字段 名 ”并 调用 过 滤器 查询 方法 。 
源 代码 如 下 所 示 : 


else if(str[0].equals("quafilter") && str.length--3 
// 处 理 过 滤器 请 求 


hbasebase.getfilterresult(str[1], str[21]); 
) 


测试 并 运行 ， 效 果 如 下 所 示 : 


[root@www hjaval# java HBaseBase 
myhbase:»quafilter student,age 
row:l info:age value:20 timestamp:1459132877213 


row:2 info:age value:23 
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7.3.5 ”数据 删除 


调用 HTable 的 delete(Delete delete) 方 法 , 可 以 删除 表 集 数据 , 需要 传 入 的 参数 为 Delete 
类 ， 在 Delete 类 里 面 ， 设 置 可 以 删除 的 列 对 象 。 

类 Delete 用 于 格式 化 要 删除 的 列 对 象 ， 通 过 此 对 象 设 定 删除 对 象 的 条 件 。 它 的 常用 方 
法 如 表 7-10 所 示 。 




















3k 7-10 Delete 类 常用 的 方法 


方法 名 称 返回 值 dá xk 
addFamily(byte[] family) Delete 设 定 要 删除 的 列 簇 名 称 ， 默 认 删 除 全 部 版 本 
设 定 要 删除 的 列 簇 以 及 列 名 称 ， 默 认 删 除 最 
近 版 本 








addColumn(byte[] family, byte[] qualifier) Delete 





setTimestamp(long timestamp) Delete 设 定 时 间 惟 
setACL(Map<String,Permission> perms) 设 定 权限 
这 里 实现 一 个 delete 方法 ,能 够 实现 通过 输入 表 名 、 行 键 值 区 间 获 得 结果 集合 记录 , 源 


代码 如 下 所 示 : 
// 删 除 一 列 或 一 行 数据 ， 如 果 control 为 true， 则 删除 一 列 ， 否 则 删除 一 行 


public void deletehbasecolumn (String tbname, boolean control, String rowkey, 
String family, String column) throws IOException ( 
HTable htb = new HTable(hbaseconf, Bytes.toBytes (tbname)); 
1 Delete deleteColumn = new Delete (Bytes.toBytes (rowkey)); 
if(control) ( 
2 deleteColumn.deleteColumns( 
Bytes.toBytes(family), Bytes.toBytes (column)); 
$ 
htb.delete (deleteColumn); 
if (control) { 
System.out.println( 
"delete column " + rowkey + " " + family + ":" + column + " OK!"); 
) else ( 
System.out.println("delete row " + rowkey + " OK!"); 
P 
) 


代码 解析 与 运行 


代码 1 处 : 用 于 构造 要 删除 的 类 。 

代码 2 处 : 用 于 设 定 要 删除 的 列 字段 。 

在 main 方法 中 创建 “delete KH, 行 键 值 ”或 “delete 表 名 , THE, I, 字段 ”的 
命令 并 调用 删除 方法 ， 用 于 删除 一 行 或 一 列 记录 。 

源 代码 如 下 所 示 : 

else if(str[0].equals("delete") && str.length--3) 

t 


// 处 理 delete 请 求 
hbasebase.deletehbasecolumn(str[1], false, str[2], "", ""); 


数据 


从 基础 理论 到 最 佳 实践 
Ros 


else if(str[0].equals("delete") && str.length--5) 


// 处 理 delete 请 求 
hbasebase.deletehbasecolumn(str[1], true, str[2], str[3], str[4]); 
) 


测试 并 运行 ， 这 里 查询 前 面 提交 的 数据 ， 效 果 如 下 所 示 : 

[root@www hjaval# java HBaseBase 

myhbase:»delete student,1,info,age 

delete row 1 column: info:age OK! 

myhbase:>scan student 

row:l info:name value:tom timestamp:1459132885102 

row:2 info: value:student information timestamp:1459132909940 
row:2 info:age value:23 timestamp:1459133055925 

row:2 info:name value:jim timestamp:1459135434239 
myhbase:»delete student,1 

delete row 1 OK! 

myhbase:»scan student 

row:2 info: value:student information timestamp:1459132909940 
row:2 info:age value:23 timestamp:1459133055925 

row:2 info:name value:jim timestamp:1459135434239 





7.4 ”集群 与 优化 编程 


面向 大 规模 的 数据 存 取 与 管理 时 ， 涉 及 到 对 HBase 集群 的 编程 开发 ， 同 样 也 涉及 到 通 
过 多 表 或 表 池 技术 来 提升 数据 访问 效率 ， 本 节 将 重点 介绍 这 些 内 容 。 
7.4.1 集群 管理 


利用 HBaseAdmin 类 ， 可 以 实现 对 集群 的 管理 ， 这 种 管理 包括 对 状态 的 监测 、 服 务 关 
Hj. Region 区 域 的 调整 、 快 照管 理 、 数 据 迁 移 等 ， 这 里 以 服务 、Region 为 示例 ， 介 绍 集群 














的 管理 操作 。 
1. 服务 管理 
调用 HBaseAdmin 类 中 如 表 7-11 所 示 的 方法 ,可 以 关闭 Region 服务 器 ,可 以 关闭 Master， 
甚至 关闭 整个 集群 。 
表 7-11 服务 管理 方法 
方法 名 称 返回 值 描 述 
stopMaster() void 停止 Master 服务 
stopRegionServer(String hostnamePort) void 停止 指定 名 称 的 Region 服务 器 
shutdown() void 停止 集群 服务 
isMasterRunning() boolean Master 服务 是 否 运 行 





这 里 设计 一 个 示例 , 输入 stop 命令 , stop all 为 关闭 整个 集群 ,stop master 为 关闭 Master 
服务 器 ，“stop Region 服务 器 名 称 ” 为 关闭 指定 的 Region 服务 器 。 
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源 代码 如 下 所 示 : 
// 关 闭 集群 、 关 闭 Master， 关 闭 RegoinServer 


public void stopservice(String name) throws Exception ( 
HBaseAdmin hbaseadmin - new HBaseAdmin (hbaseconf); 
if (name.equals("all")) { 
hbaseadmin.shutdown(); 
System.out.println("shut down cluster!"); 


} 

else if(name.equals("master")) { 
hbaseadmin.stopMaster(); 
System.out.println("shut down master!"); 


) 
else ( 
hbaseadmin.stopRegionServer (name); 
System.out.println ("shut down regionserver " + name + " !"); 


) 
main 方法 中 的 相关 代码 如 下 所 示 : 


else if(str[0].equals("stop") && str.length--2) 


// 处 理 stop all 或 stop hostname 请 求 
hbasebase.stopservice (str[1]); 


运行 效果 如 下 所 示 : 
[root@www hjava]# java HBaseBase 


myhbase:>stop all 
shut down cluster! 


2. Region 管理 
针对 Region 的 管理 , 在 HBaseAdmin 类 中 提供 了 比较 丰富 的 接口 , 包括 Region 的 关闭 、 
分 裂 、 移 动 、 合 并 等 ， 通 过 这 些 方法 ， 能 够 方便 用 户 在 运 维 HBase 集群 时 编写 自动 化 调度 
与 管理 任务 。 
比较 典型 的 Region 操作 方法 如 表 7-12 所 示 。 
表 7-12 Region 的 管理 方法 














方法 名 称 描 xk 


loseRegion(b i 
d : Iba E 关闭 指定 服务 器 上 的 Region 
String serverName) 





compactRegion(byte[] regionName) 压缩 一 个 独立 的 Region 
getTableRegions(TableName tableName) List-HRegionInfo- 获取 表 中 的 所 有 Region 清单 
offline(byte[] regionName) void 将 指定 的 Region 下 线 
InergeRegions(byte[] nameOfRegionA, 
byte[] nameOfRegionB, boolean forcible) 


splitRegion(byte[] regionName) 拆 分 Region 
— na aida ———————— — eee ER 








void 合并 两 个 Region 





A Jemen 








续 表 
方法 名 称 描 述 
assign(byte[] regionName) 分 配 一 个 Region 
dedRegionName, 
bip p nM NIE 移动 Region 到 目标 服务 器 





byte[] destServerName) 


这 里 设计 一 个 示例 ， 当 输入 split 的 命令 ， 语 法 为 “split region 名 称 ”， 则 实现 指定 的 
Region 的 拆 分 。 
源 代码 如 下 所 示 : 


//split region 管理 

public void splitregion(String regionname) throws Exception { 
HBaseAdmin hbaseadmin - new HBaseAdmin (hbaseconf); 
hbaseadmin.split (regionname); 
System.out.println("Split " + regionname + " OK !"); 

i 


main 方法 中 的 相关 代码 如 下 所 示 : 


else if(str[0] .equals ("split") && str.length==2) { 
// 处 理 split 请 求 
hbasebase.splitregion(str[1]); 


运行 效果 如 下 所 示 : 


[root@www hjava]# java HBaseBase 
myhbase:> split c663d751446746badc7653c684670c98 
Split c663d751446746badc7653c684670c98 OK ! 


7.4.9 ”集群 监测 


HBase 中 ， 利 用 HBaseAdmin 类 进行 状态 监测 主要 包括 以 下 两 个 方面 : 
一 是 集群 状态 层面 ， 涉 及 到 集群 状态 、RegionServer 服务 器 数量 、 可 用 RegionServer 
数量 、 不 可 用 RegionServer 数量 、Region 数量 等 ， 监 测 集群 要 使 用 ClusterStatus 类 。 

二 是 RegionServer 状态 层面 ， 涉 及 到 服务 器 名 称 、 开 放 端 口 、 服 务 器 的 Region 数量 、 
每 个 Region 的 存储 及 资源 占用 情况 , 这 主要 涉及 到 三 个 类 ,分 别 是 ServerName, ServerLoad、 
RegionLoad 类 。 

监测 是 调度 HBase 集群 的 基础 ， 通 过 监测 ， 可 以 通过 获取 不 同 粒度 的 信息 以 精细 定位 
存在 的 问题 ， 下 面 实现 两 个 方法 ， 作 用 分 别 是 : 实现 集群 状态 以 及 服务 器 、Region 数量 统 
ib: 实现 当前 所 有 服务 器 或 某 一 个 服务 器 的 状态 以 及 服务 器 上 的 Region 状态 信息 。 

(1) 集群 状态 监测 使 用 前 ， 先 导入 org.apache.hadoop.hbase.ClusterStatus 类 ， 状 态 查看 
源 代码 如 下 所 示 : 

// 集 群 状态 


public void clusterstatus() throws Exception 
t 





hbaseadmin = new HBaseAdmin (hbaseconf); 
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ClusterStatus cs = hbaseadmin.getClusterStatus(); 
System.out.println(" 集群 状态 "c 
System.out.println("HBase 版 本 :" + cs .getHBaseVersion()); 
System.out .println ("软件 版 本 :" + cs.getVersion()); 
System.out .println ("集群 编号 :" + cs.getClusterId()); 
System.out .println ("集群 Master 列表 :" + cs.getMaster()); 
System.out.println("fEff backup Master 数量 :" 

* cs. getBackupMastersSize i); 
System.out .println ("集群 backup Master 列表 :" + cs.getBackupMasters()); 
System.out.println( "集群 平均 负载 :" + cs. getAverageLoad()):; 
System.out .println ("存活 服务 器 数量 :"  cs.getServersSize()); 
System.out .println ("存活 服务 器 列表 :" + cs.getServers()); 
System.out .println(" 宕 机 数量 :" + cs.getDeadServers()); 
System.out .println(" 宕 机 列表 :" + cs.getDeadServerNames()); 
System.out .println ("Region 数量 :" + cs.getRegionsCount()); 
System.out.println ("业务 请 求 数量 :" + cs.getRequestsCount ()); 
System.out.println("Master 协 处 理 器 :" + cs.getMasterCoprocessors()); 
System.out.println(" "yr 











} 


(2) 服务 器 状态 在 使 用 前 ， 需 要 导入 org.apache.hadoop.hbase.ServerName、org.apache. 
hadoop.hbase.ServerLoad、org.apache.hadoop.hbase.RegionLoad 25, 方法 的 参数 只 有 一 个 ， 即 
服务 器 名 称 ， 当 该 变量 为 ll 时 ， 则 输出 所 有 服务 器 状态 信息 。 

源 代码 如 下 所 示 : 

/ /服务器 状态 


public void serverstatus (String servername) 
throws MasterNotRunningException, ZooKeeperConnectionException, 
IOException ( 
HBaseAdmin hbaseadmin - new HBaseAdmin (hbaseconf); 
ClusterStatus cs = hbaseadmin.getClusterStatus(); 
int i = 1; 
// 循 环 获取 每 个 RegionServer 
for(ServerName sn : cs.getServers()) 


// 如 果 当 前 传递 的 是 all 或 者 传递 的 是 当前 服务 器 列表 ， 则 输出 
if(servername .equals ("all") 
|| sn.getHostname () .equals (servername)) 
t 
System.out .println(" 服 务 器 编号 : " + i++); 
System.out.println ("服务 器 信息 :" + sn.getServerName()); 
System.out .println ("起 始 码 : " + sn.getStartcode()); 


// 显 示 服 务 器 负载 情况 
ServerLoad sl = cs.getLoad(sn); 
System.out .println ("请 求 数量 :" + sl.getNumberOfRequests()); 
System.out .println (" 读 请 求 数 :" + sl.getReadRequestsCount ()); 
System.out .println ("每 秒 请 求 :" + sl.getRequestsPerSecond()); 
System.out.println(" 写 请 求 数 : " + sl.getWriteRequestsCount () ) ; 
System.out .println ("负载 情况 :" + sl.getLoad()); 
System.out.println("Max Heap (MB):" + sl.getMaxHeapMB()); 
System.out .println("Mem Store (MB) :" + s1.getMemstoreSizeInMB()); 
System.out.println("Region 数量 : " + sl.getNumberOfRegions ()); 
System.out.println (" 根 索引 大 小 (KB) :" + sl.getRootIndexSizeKB()); 
System.-out.println ("存储 文件 数量 " + sl.getStorefiles()); 
System.out.println( 

"存储 文件 大 小 (MB) :" + sl.getStorefileIndexSizeInMB()); 


/ /循环 获 取 每 个 Region 并 显示 
int j = 1; 





«ja 从 基础 理论 到 最 佳 实践 


for(Entry«byte[], RegionLoad> ey : 
sl.getRegionsLoad().entrySet()) 

t 
RegionLoad rl - ey.getValue(); 
System.out.println("Region 编号 : " + j++); 
System.out.println ("Region 名 称 :" + rl.getNameAsString()); 
System.out.println ("总 请 求 数 :" + rl -getRequestsCount ()); 
System.out.println (" 读 请 求 数 :" + rl. getReadRequestsCount ()); 
System.out .println (" 写 请 求 数 :" + rl.getWriteRequestsCount ()); 
System.out.println( 

"Mem Store(MB):" + rl.getMemStoreSizeMB()); 
System.out.println( 

"Store File(MB):" + rl.getStorefileSizeMB()); 
System.out.println("Store Files 数量 :" + rl.getStorefiles()); 
System.out.println( 

"Root Index(KB):" + rl.getRootIndexSizeKB()); 
System.out.println("---------------------------------- "ys 


) 


在 main 方法 中 , 设计 了 clusterstatus, server 命令 ， 分 别 用 于 显示 集群 与 服务 器 的 状态 ， 
针对 server 命令 ， 如 果 输 入 的 服务 器 名 称 为 al， 则 显示 集群 中 所 有 服务 器 信息 ， 如 果 要 显 
示 某 一 个 服务 器 ， 则 后 跟 服务 器 名 称 即 可 。 

main 方法 中 ， 源 代码 如 下 所 示 : 


else if(str[0].equals("clusterstatus") && str.length--1) 


// 处 理 clusterstauts 请 求 
hbasebase.clusterstatus(); 


) 
else if(str[0].equals("server") && str.length--2) 





// 处 理 server all 或 server hostname 请 求 
hbasebase.serverstatus (str[1]); 


运行 效果 如 下 所 示 ( 部 分 显示 有 删 减 ): 


[root@www hjava]# java HBaseBase 
myhbase:>clusterstatus 
集群 状态 
HBase 版 本 :0.98.3-hadoop1 
软件 版 本 :2 
集群 编号 :le84fe97-f16a-4c2c-ad09-dc01f26f2609 
集群 Master 列表 :iz23d4byllaz, 60000,1457240251932 
集群 backup Master 数量 :0 
集群 backup Master 列表 : [] 
集群 平均 负载 :12 .0 
存活 服务 器 数量 :1 
存活 服务 器 列表 : [iZz23d4byllaz, 60020,1457240254015] 
宕 机 数量 :0 
宕 机 列表 : [] 
Region 数量 :12 
业务 请 求 数量 :25936 
Master 协 处 理 器 : [Ljava.lang.String;@6d5a1741 
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myhbase:>server all 
服务 器 编号 : 1 

服务 器 名 称 : i223d4byllaz, 60020,1457240254015 
起 始 码 : 1457240254015 
负载 情况 :12 

Max Heap (MB) :983 

Mem Store (MB):0 
Region 数量 : 12 
请 求 数量 :0 

读 请 求 数 :87127 
每 秒 请 求 :0.0 

写 请 求 数 : 138 
根 索 引 大 小 (KB) :0 

存储 文件 数量 13 
存储 文件 大 小 (MB) :0 
Region 编号 : 1 

Region 名 称 :hbase:meta,,1 
Mem Store (MB) :0 
Store File (MB) :0 
Store Files 数量 :1 
Root Index (KB) :0 

总 请 求 数 :86672 
读 请 求 数 :86636 

写 请 求 数 :36 





Region 编号 : 2 

Region 名 称 :hbase:namespace,， 
1451358713278.2dad5136e3f76dabl2bccd76c213121b. 
Mem Store (MB) :0 

Store File (MB) :0 

Store Files 数量 :2 

Root Index (KB) :0 

总 请 求 数 :182 

读 请 求 数 :164 

写 请 求 数 :18 


Region 编 





Region 名 称 : student, ,1458986225866.1al24f0d371354a8c34bab9f89cd9cf6. 
Mem Store (MB) :0 

Store File (MB) :0 

Store Files 数量 :2 

Root Index (KB) :0 

总 请 求 数 : 69 

读 请 求 数 :52 





Region 编号 : 12 

Region 名 称 :testhbase, ,1453080469131.0c3da9d154163bbb2bl06ae878acc9cc. 
Mem Store (MB):0 

Store File(MB):0 

Store Files 数量 :2 

Root Index (KB):0 


7.4.3 ”多 表 与 表 池 


HTable 是 HBase 最 常用 的 对 象 , 针对 数据 的 操作 要 借助 该 对 象 。 创建 一 个 HIable 对 象 
比较 耗 时 ， 在 实际 的 HBase 集群 应 用 开发 中 ， 每 秒 要 承担 大 量 IO 请 求 ， 很 难为 每 一 次 操 


«d 从 基础 理论 到 最 佳 实践 


作 独 立 创建 一 个 HTable 对 象 ， 那 极 不 现实 。 

在 实际 读 写 操作 时 ， 有 两 种 途径 可 进行 性 能 优化 ， 一 种 是 批量 创建 多 个 表 对 象 ， 以 多 
线程 的 形式 使 用 ， 另 一 种 是 使 用 表 池 技术 ， 下 面 分 别 进行 介绍 。 

1. 多 表 技 术 

同时 创建 多 个 表 对 象 ， 并 设 定 多 线程 机 制 。 创 建 表 对 象 时 ， 可 根据 读 写 分 离 的 原则 ， 
针对 读 、 写 各 自 创建 所 需 的 表 对 象 ， 创 建 多 表 对 象 的 代码 如 下 所 示 : 





int tbnum = 10; 
String tbname = "student"; 
tbarray = new HTable[tbnum]; 
for (int i-0; i«tbnum; i++) ( 
tbarray [i] = new HTable(hbaseconf, tbname); 
} 


每 个 对 象 可 以 对 应 于 一 个 线程 进行 并 行使 用 ， 在 数据 读 取 时 ， 考 虑 到 性 能 优化 ， 需 要 
设 定 如 下 参数 ， 该 参数 的 设 定 可 在 扫描 数据 时 不 用 一 条 条 传输 ， 以 提升 效率 : 


tbarray[i].setScannerCaching (100); 


当然 ， 在 执行 查询 时 ， 也 可 以 指定 查询 的 列 簇 或 字段 信息 ， 这 样 ， 可 以 减少 数据 量 的 
传输 ， 默 认 的 HBase 在 集合 查询 时 返回 全 部 列 簇 数据 。 

在 数据 并 行 写 的 时 候 ， 可 以 考虑 设置 以 下 几 个 参数 : 

1 tbarray[i].setWriteBufferSize (10*1024*1024); 

2 tbarray[i].setAutoFlush(false); 

代码 1 处 设 定 写 缓存 ， 通 过 写 缓存 的 设置 ， 可 以 实现 批量 数据 提交 ， 以 提高 写 效率 。 

代码 24b. 设 定 自 动 更 新 ， 为 tue 时 ， 每 次 提交 即 会 更 新 ， 设 置 为 false 后 ， 可 以 批量 
提交 ， 避 免 每 次 提交 带 来 的 性 能 损耗 。 


2. 表 池 技术 


表 池 类 似 于 线程 池 ， 初 始 化 创建 一 组 表 对 象 池 ， 在 使 用 时 获取 对 象 ， 使 用 后 回收 对 象 ， 
以 实现 动态 分 配 。 

在 HBase 中 ，HTablePool 类 定义 了 表 池 ， 使 用 HTablePool 首先 需要 初始 化 对 象 ， 并 且 
设 定 表 池 的 大 小 ; 在 使 用 时 ， 通 过 getTable 方法 获取 HTableInterface 对 象 ， 并 进行 相应 的 
数据 存 取 操 作 ， 使 用 完 后 ， 通 过 putTable 方法 进行 回收 。 

下 面 给 出 了 一 个 表 池 的 使 用 示例 : 


import java.io.IOException; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.KeyValue; 

import org.apache.hadoop.hbase.client.Get; 

import org.apache.hadoop.hbase.client.HBaseAdmin; 
import org.apache.hadoop.hbase.client.HTableInterface; 
import org.apache.hadoop.hbase.client.HTablePool; 
import org.apache.hadoop.hbase.client.Result; 

import org.apache.hadoop.hbase.util.Bytes; 
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public class HTPoolTest { 
private Configuration hbaseconf = null; 
private HTablePool htbpool - null; 
// 初 始 化 
1 public void init() ( 
hbaseconf - HBaseConfiguration.create(); 
hbaseconf.set("hbase.zookeeper.quorum", "iZ23d4byllaZ"); 
hbaseconf.set("hbase.zookeeper.property.clientPort", "2181"); 


htbpool = new HTablePool (hbaseconf, 2); 


) 
// 获 取 表 对 象 
2 public HTableInterface gettable(String tbname) ( 
return htbpool.getTable (tbname); 
} 
// 回 收 表 对 象 
3 public void puttable(HTableInterface htb) throws IOException { 
if(htb !- null) 
htbpool.putTable (htb); 


} 
// 获 取 某 一 行 记录 
public void getrow(String tbname, String rowkey) throws IOException ( 
4 HTableInterface htb = this.gettable (tbname); 
Get get = new Get(Bytes.toBytes (rowkey)); 
Result res = htb.get (get); 
System.out.println("familyNtcolumnNtvalueNtversionNttimstamp "); 
for (KeyValue kv : res.list()) ( 
System.out.print (Bytes.toString(kv.getFamily())); 
System.out.print("Nt" + Bytes.toString(kv.getQualifier())); 
System.out.print("Nt" + Bytes.toString(kv.getValue())); 
System.out.print("Nt" + kv.getMvccVersion()); 
System.out.println("Nt" + kv.getTimestamp()); 














) 
5 this.puttable (htb); 
) 


public static void main(String[] args) throws IOException ( 
HTPoolTest ts - new HTPoolTest(); 
ts.init(); 
ts.getrow("student", "2"); 


) 


代码 1 处 : 为 对 表 池 对 象 初始 化 ， 参 数 2 为 初始 的 表 池 数量 大 小 。 
代码 2 处 ， 通过 表 名 获取 表 对 象 。 

代码 3 处 : 回收 表 对 象 至 表 池 。 

代码 4 处 : 在 使 用 表 池 时 ， 获 取 表 对 象 。 

代码 5 处 : 使 用 完毕 后 回收 表 对 象 。 

整个 程序 的 运行 效果 如 下 所 示 : 

[root@www hjava]# javac HTPoolTest.java 

[root@www hjaval# java HTPoolTest 

family column value version timstamp 

info student information 0 1459132909940 


info age 23 0 1459133055925 
info name jim 0 1459135434239 


SA 从 基础 理论 到 最 佳 实践 “ 
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7.4.4 HANE 


HBase 支持 针对 数据 增加 、 删 除 、 查 询 、 修 改 的 批 处 理 ， 借 助 批 处 理 技术 ， 能 够 极 大 地 
提高 数据 操作 的 性 能 ,前 面 提 到 的 Put, Get, Delete, Scan 类 继承 于 基 类 Row, 通过 List<Row> 
形成 待 操作 的 批 处 理 集合 ， 借 助 HTable 类 进行 提交 。 

下 面 给 出 了 一 个 批 处 理 的 使 用 示例 ， 源 代码 如 下 所 示 : 


import java.io.IOException; 

import java.util.ArrayList; 

import java.util.List; 

import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.client.Delete; 
import org.apache.hadoop.hbase.client.Put; 

import org.apache.hadoop.hbase.client.Row; 

import org.apache.hadoop.hbase.client.HTable; 
import org.apache.hadoop.hbase.util.Bytes; 


public class hbasebatch ( 


public static void main(String[] args) throws Exception ( 
//TODO Auto-generated method stub 
Configuration hbaseconf - HBaseConfiguration.create(); 
hbaseconf.set("hbase.zookeeper.quorum", "iZ23d4byllaZ"); 
hbaseconf.set("hbase.zookeeper.property.clientPort", "2181"); 


Put putl = new Put (Bytes.toBytes ("3")); 
putl.add(Bytes.toBytes ("info"), 
Bytes.toBytes("age"), Bytes.toBytes("12")); 
putl.add(Bytes.toBytes ("info"), 
Bytes.toBytes ("name"), Bytes.toBytes ("tom")); 


Put put2 = new Put (Bytes.toBytes ("4")); 
put2.add(Bytes.toBytes ("info"), 

Bytes.toBytes ("age"), Bytes.toBytes("42")); 
put2.add(Bytes.toBytes ("info"), 

Bytes.toBytes ("name"), Bytes.toBytes ("alex")); 


Delete deletel = new Delete (Bytes .toBytes ("2")); 


// 将 增加 、 删 除 操作 加 入 批 处 理 列表 中 
1 List«Row» batchlist = new ArrayList«Row»(); 
2 batchlist.add(putl); 
batchlist.add(put2); 
batchlist.add(deletel); 


// 让 表 加 载 批 处 理 
HTable htb = new HTable(hbaseconf, "student"); 
Object[] res = new Object[3]; 


3 htb.batch(batchlist, res); 

// 显 示 执 行 结果 

for(int i-0; i«res.length; i++) ( 
4 System.out.println(res[i]):; 


} 
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代码 1 处 : 实例 化 批 处 理 列表 。 

代码 2 处 : 将 数据 操作 加 入 批 处 理 列 表 中 。 

代码 3 处 : 调用 HTable 的 batch 批 处 理 执行 方法 。 

代码 4 处 : 显示 批 处 理 操作 日 志 。 

整个 程序 运行 效果 如 下 所 示 ， 另 外 借助 于 myhbase 验证 查看 运行 后 的 数据 结果 : 


[root@www hjava]f javac hbasebatch.java 

[root@www hjava]t java hbasebatch 

keyvalues-NONE 

keyvalues-NONE 

keyvalues-NONE 

[root@www hjaval# java HBaseBase 

myhbase:»scan student 

row:3 info:age value:12 timestamp:1460037064286 
row:3 info:name value:tom timestamp:1460037064286 
row:4 info:age value:42 timestamp:1460037064286 
row:4 info:name value:alex timestamp:1460037064286 


7.4.5 数据 迁移 


对 于 传统 关系 型 数据 库 的 用 户 来 讲 ， 在 使 用 HBase 时 ， 面 临 的 最 大 问题 是 数据 的 迁移 
问题 , 即 如 何 将 关系 数据 库 上 的 数据 迁移 至 HBase 中 。 这 里 给 出 两 种 方法 , 一 种 是 基于 sqoop 
工具 实现 数据 迁移 至 HBase 中 ， 这 种 方法 能 够 满足 绝 大 部 分 数据 迁移 场景 ， 另 一 种 是 编写 
专用 的 数据 迁移 程序 ， 实 现 定制 化 的 数据 迁移 ， 此 方法 只 限于 一 些 特定 类 型 的 数据 迁移 。 


1. sqoop 数据 迁移 


sqoop 是 Apache 旗下 的 开源 项 目 ， 主 要 应 用 于 传统 数据 库 (MySQL、Oracle 等 ) 数 据 迁 
移 至 HDFS、HBase、Hive 中 ， 当 然 ， 也 可 以 实现 将 Hive、HDFS 数据 迁移 至 传统 数据 库 。 

从 官方 网 站 下 载 sqoop 压缩 包 (http://apache.fayea.com/sqoop/1.4.6/)， 存 放 于 alidata 目录 
下 ， 对 压缩 包 进 行 解压 ， 同 时 ， 对 解压 缩 修 改 目 录 名 为 sqoop， 如 下 所 示 : 


[root@www alidata]# tar zxvf sqoop-1.4.6.bin hadoop-2.0.4-alpha.tar.gz 
[root@www alidata]# mv sqoop-1.4.6.bin hadoop-2.0.4-alpha sqoop 


这 里 以 MySQL 数据 源 为 例 ， 新 建 一 个 数据 库 test_hbase， 在 里 面 新 建 一 张 表 staff， 定 
义 三 个 字段 ， 并 填充 数据 ， 相 关 的 SQL 脚本 如 下 所 示 : 


create database test hbase; 

use test hbase; 

CREATE TABLE IF NOT EXISTS ^staff^ ( 
^id" int(11) DEFAULT NULL, 
^name^ varchar(20) DEFAULT NULL, 
`age` int(11) DEFAULT NULL 

) ENGINE-InnoDB; 


INSERT INTO ^staff' (^id^, ‘name‘, ^age') VALUES 
(1000, 'tom', 23), 
(1001, 'jim', 23), 
(1002, 'ttt', 24); 


在 MySQL 中 新 建 一 个 用 户 名 hbase, 口令 也 是 hbase， 用 于 数据 迁移 时 使 用 ， 并 赋予 对 
库 以 及 表 的 访问 权限 ， 如 下 所 示 : 


NEST 
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mysql» insert into mysql.user(Host,User,Password) values ("i223d4byllaz 
","hbase",password("hbase ")); 

mysql»grant all on test hbase.* to hbase8'$' identified by hbase; 
mysql»flush privileges; 


复制 mysql 连接 包 mysgl-connector-java-5.1.22-bin.jar 至 sqoop 的 链接 库 中 ， 如 下 所 示 : 
[root@www bin]# cp mysql-connector-java-5.1.22-bin.jar /alidata/sqoop/lib/ 
利用 sqoop 测试 连接 MySQL 数据 库 , 并 列 出 当前 数据 库 test_hbase MAK, W FAR: 
[root@www www]# cd /alidata/sqoop/bin/ 

[root@www bin]# ./sqoop list-tables --connect jdbc:mysql:// 
iZ23d4byllaZ:3306/test hbase --username hbase --password hbase 

staff 


测试 成 功 后 ， 此 时 ， 可 以 通过 sqoop 将 staff 表 的 数据 迁移 至 HBase H, 在 迁移 命令 时 ， 


在 HBase 中 创建 一 个 sta 任 表 ， 定 义 一 个 列 艇 staffinfo， 并 以 原 表 中 的 id 字段 作为 HBase 新 


表 中 


例子 
的 年 
式 ， 


的 列 键 值 ， 如 下 所 示 : 


[root@www bin]#./sqoop import --connect jdbc:mysql:// iZ23d4byllaZ:3306/ 
test hbase --username hbase --password hbase --table staff 
--hbase-create-table --hbase-table staff --column-family staffinfo 
--hbase-row-key id -m 1 


此 时 ， 进 入 HBase 查看 数据 迁移 情况 ， 如 下 所 示 : 


hbase (main) :007:0> scan 'staff' 


ROW COLUMN+CELL 

1000 column=staffinfo:age, timestamp=1463038324515, value=23 
1000 column=staffinfo:name, timestamp=1463038212086, value=tom 
1001 column=staffinfo:age, timestamp=1463038329358, value=23 
1001 column=staffinfo:name, timestamp=1463038291049, value=jim 
1002 column=staffinfo:age, timestamp=1463038338395, value=24 
1002 column=staffinfo:name, timestamp=1463038299965, value=ttt 


3 row(s) in 0.0210 seconds 


2. 编程 实现 数据 迁移 


对 于 一 些 特定 环境 的 数据 ， 迁 移 有 时 候 要 借助 于 编程 ， 即 源 数据 需要 处 理 ， 如 前 面 的 
H, RIH staff 表 的 年 龄 信息 是 10 年 前 上 报 的 ， 在 导入 到 HBase 中 时 ， 每 个 员工 
龄 要 加 10， 诸 如 此 类 的 需求 ， 单 纯 借 助 于 sqoop 就 不 太 容易 完成 。 这 里 通过 编程 的 方 
实现 前 面 的 数据 迁移 ， 程 序 的 主要 流程 是 分 别 连接 MySQL 与 HBase， 将 MySQL 数据 


表 sta 企 顺序 读 取 ， 并 以 列 的 形式 进行 组 织 ， 写 入 到 HBase 中 。 


代码 如 下 所 示 : 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.client.HTable; 
import org.apache.hadoop.hbase.client.Put; 

import org.apache.hadoop.hbase.util.Bytes; 

import java.io.IOException; 

import java.sql.Connection; 

import java.sql.DriverManager; 

import java.sql.ResultSet; 

import java.sql.SQLException; 
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import java.sql.Statement; 
public class DataMigration ( 


// 声 明 静 态 配 置 

private static Configuration hbaseconf = null; 

static ( 
Configuration testconf - new Configuration(); 
testconf.set("hbase.zookeeper.quorum", "iZ23d4byllaZ"); 
testconf.set("hbase.zookeeper.property.clientPort", "2181"); 
hbaseconf = HBaseConfiguration.create (testconf); 


) 


// 连 接 数 据 库 
public void DataMigr () 
throws SQLException, ClassNotFoundException, IOException ( 
Class.forName ("com.mysql.jdbc.Driver"); 
Connection conn - DriverManager.getConnection( 
"jdbc:mysql://iZ23d4byllaZ:3306/test hbase", "hbase", " hbase "); 
Statement stmt = conn.createStatement(); 
ResultSet res - stmt.executeQuery("select * from staff"); 
HTable htb - new HTable(hbaseconf, "staff 1"); 
while(res.next()) ( E 
Put nameput = new Put(Bytes.toBytes(res.getString(1))); 
nameput.add (Bytes.toBytes ("staffinfo"), 
Bytes.toBytes("name"), Bytes.toBytes(res.getString("name"))); 
htb.put (nameput) ; 
Put ageput = new Put (Bytes.toBytes (res.getString(1))); 
int age = res.getInt("age") + 10; 
String strage - String.valueOf (age); 
ageput.add (Bytes .toBytes ("staffinfo"), 
Bytes.toBytes("age"), Bytes.toBytes(strage)); 
htb.put (ageput) ; 
System.out.println("insert [" + res.getInt(1) + "] OK!"); 
H 
) 
public static void main(String[] args) 
throws ClassNotFoundException, SQLException, IOException ( 
//TODO Auto-generated method stub 
DataMigration tt = new DataMigration(); 
tt.DataMigr(); 


) 

编译 运行 结果 如 下 所 示 : 

[root@www hjava]# javac DataMigration.java 
[root@www hjava]# java DataMigration 
insert [1000] OK! 


insert [1001] OK! 
insert [1002] OK! 


验证 HBase 中 的 staff 1 表 数 据 ， 如 下 所 示 : 


hbase (main) :011:0> scan 'staff 1' 


ROW COLUMN-«CELL 

1000 column-staffinfo:age, timestamp-1463109418494, value-33 
1000 column-staffinfo:name, timestamp-1463109418410, value-tom 
1001 column-staffinfo:age, timestamp-1463109418578, value-33 
1001 column-staffinfo:name, timestamp-1463109418539, value-jim 
1002 column-staffinfo:age, timestamp-1463109418664, value-34 
1002 column-staffinfo:name, timestamp-1463109418623, value-ttt 
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7.5 小 结 


本 章 梳理 了 HBase 各 编程 接口 的 开发 框架 ， 以 rest 接口 为 例 ， 介 绍 了 如 何 通 过 curl 与 


编程 语言 进行 表 、 数 据 、 集 群 的 操作 ， 以 thrift 接口 为 例 ， 介 绍 了 其 编程 流 得 ， 最 后 了 


ET 





绍 了 Java API， 通 过 安排 一 系列 命名 空间 、 表 、 数 据 的 增删 改 查 ， 以 及 过 滤器 、 集 群 的 监测 
与 控制 、 表 池 与 多 表 技 术 的 编程 示例 ， 以 加 深 读 者 的 理解 。 通 过 上 述 示例 的 学 习 ， 读 者 应 


能 初步 掌握 HBase 开发 ， 并 能 够 在 未 来 的 项 目 中 加 以 应 用 。 


本 章 中 安排 了 一 个 仿 HBase Shell 的 myhbase 示例 ， 能 够 实现 基于 命令 行 的 功能 交互 ， 
有 兴趣 的 读者 可 以 去 完善 ， 此外， 当前 流行 的 管理 是 基于 可 视 化 特征 的 ， 也 建议 有 兴趣 的 


读者 基于 Web 技术 开发 可 视 化 的 HBase 管理 应 用 。 
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数据 仓库 概论 | 


本 章 首先 介绍 数据 仓库 的 基本 概念 、 特 点 ， 与 传统 数据 库 的 差别 ， 以 
期 让 读者 对 数据 仓库 有 最 基本 的 认识 ; 之 后 ， 从 业务 角度 来 剖析 出 现 数据 
仓库 的 原因 ; 然后 介绍 数据 仓库 的 体系 结构 ， 应 用 实例 ; 最 后 ， 与 读者 共 
同 探讨 数据 仓库 这 一 领域 的 几 个 最 核心 的 概念 : ETL、 数 据 质 量 、 调 度 ， 它 
们 也 是 构建 数据 仓库 时 不 可 或 缺 的 组 成 部 分 。 

通过 本 章 的 学 习 ， 读 者 应 能 够 了 解数 据 仓 库 的 基本 理论 、 核 心 概念 和 
重要 组 成 部 分 。 








数据 仓库 的 概念 和 特点 

数据 仓库 与 数据 库 的 差别 

数据 仓库 主要 应 用 于 哪些 场景 

数据 仓库 常见 的 体系 结构 是 什么 样 的 

数据 仓库 里 面 的 ETL、 数 据 质量 、 调 度 分 别 是 做 什么 用 的 


数据 
a. 从 基础 理论 到 最 佳 实践 


8.1 初 识 数据 仓库 


近年 来 ， 大 数据 概念 极度 火爆 ， 同 时 火 起 来 的 是 互联 网 及 相关 行业 的 数据 仓库 。 各 大 
公司 都 在 耗 巨 资 招聘 相关 的 人 才 、 构 建 一 整套 数据 仓库 架构 ， 并 做 持续 的 运营 、 管 理 和 优 
化 。 我 们 都 知道 ， 商 业 的 目标 是 利润 ， 数 据 仓库 为 何 会 有 这 样 巨大 的 商业 价值 ? 本 节 我 们 
就 来 管 中 痪 豹 ， 看 看 什么 是 数据 仓库 ， 为 什么 需要 数据 仓库 ， 它 有 什么 用 途 。 


81.4 什么 是 数据 仓库 


仓库 是 一 个 出 现 了 上 千年 的 概念 ， 意 思 是 盛装 物品 的 巨大 容器 ， 比 如 粮食 仓库 、 弹 药 
仓库 、 原 材料 仓库 等 。 而 之 所 以 称 为 “数据 仓库 ”， 也 正 是 使 用 了 仓库 的 本 意 。 

顾名思义 : 数据 仓库 就 是 盛装 了 大 量 数据 的 巨大 容器 。 

这 里 , 我 们 一 定 要 知道 “数据 仓库 之 父 ”William H.Inmon, 他 在 1993 年 所 写 的 《Building 
the Data Warehouse》 一 书 中 ， 定 义 了 数据 仓库 的 概念 。 

(1) 定义 1: 数据 仓库 是 一 个 面向 主题 的 (subject-oriented)、 集 成 的 (integrate)、 相 对 稳 
定 的 (non-volatile)、 反 映 历史 变化 的 (time varianb 的 数据 集合 ， 用 于 支持 管理 决策 。 

根据 这 一 定义 ， 我 们 看 到 数据 仓库 具有 以 下 4 个 特点 : 

e ”数据 仓库 中 的 数据 是 按照 面向 主题 的 方式 组 织 的 。 

e ”数据 仓库 中 的 数据 是 集成 的 。 

e ”数据 仓库 中 的 数据 是 稳定 的 。 

e 数据 仓库 中 的 数据 是 随 着 时 间 不 断 变化 的 。 

© 面向 主题 的 。 

正如 我 们 上 面 举 的 例子 : 粮食 仓库 、 弹 药 仓 库 、 原 材料 仓库 是 不 同 的 仓库 ， 数 据 仓 库 
同样 也 是 按照 其 存放 数据 的 内 容 不 同 ， 来 分 别 存储 和 管理 。 

通常 来 说 ， 数 据 仓库 的 主题 是 在 较 高 的 业务 概念 领域 对 整体 的 数据 内 容 的 划分 ， 在 划 
分 的 时 候 ， 一 般 不 会 苛刻 地 要 求 其 准确 性 和 完备 性 ， 而 更 像 是 一 个 业务 概念 ， 且 更 注重 这 
个 业务 概念 在 逻辑 上 、 在 业务 表现 和 分 析 方 式 方面 的 易 用 性 。 

比如 ， 一 家 电 商 公司 ， 核 心 业务 是 通过 各 种 渠道 进货 ， 在 网 上 销售 给 普通 的 用 户 ; 希 
望 在 其 网 站 上 做 推广 ， 以 提升 其 产品 销量 。 对 于 这 样 的 客户 ， 可 以 有 单独 的 系统 做 销售 方 
案 配置 ， 同 时 具有 自己 的 售后 体系 。 这 家 公司 在 做 数据 仓库 主题 划分 的 时 候 ， 一 种 选择 就 
是 将 所 有 的 业务 划分 为 这 样 几 个 数据 仓库 : 渠道 数据 仓库 、 用 户 数据 仓库 、 客 户 数据 仓库 、 
售后 数据 仓库 。 每 一 部 分 都 是 独立 的 数据 结构 、 独 立 的 存储 和 分 析 应 用 。 

请 注意 : 在 这 个 例子 中 ， 我 们 只 是 举 了 一 个 面向 主题 划分 的 例子 。 我 们 并 没有 说 这 种 
方案 是 完美 的 ， 甚 至 都 不 敢 说 是 一 定 适用 的 ， 因 为 ， 数 据 仓 库 具有 其 阶段 性 和 延展 性 ， 在 
后 面 会 详细 说 明 。 

@ 集成 的 。 

粮仓 的 管理 ， 是 将 一 家 一 户 的 粮食 都 收集 上 来 ， 做 上 晾晒、 防虫 处 理 ， 之 后 按照 粮食 的 
类 别 存放 在 仓库 的 不 同位 置 . 数 据 仓 库 与 此 类 似 , 它 是 要 对 主题 相关 的 来 自 不 同 信息 系统 (或 
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者 散落 在 个 人 手头 、 人 脑 等 )、 不 同 介质 、 不 同 存储 结构 、 不 同 地 域 的 数据 加 以 收集 、 整 理 、 
分 类 和 优化 ， 之 后 才能 够 放 入 数据 仓库 中 。 

集成 是 一 个 复杂 的 体系 ， 过 程 中 也 涉及 大 量 的 沟通 、 计 算 、 管 理工 作 。 

© ”相对 稳定 的 。 

对 于 粮仓 来 说 ， 它 存储 的 粮食 ， 一 般 是 为 了 储备 ， 或 者 国家 意义 上 的 调拨 和 使 用 ， 一 
般 不 会 今天 拿 两 斤 玉 米 、 明 天 取 3 斤 红 豆 。 数 据 仓库 也 类 似 ， 存 储 在 里 面 的 数据 ， 一 般 不 
会 进行 数据 的 删 、 改 操作 ， 业 务 数据 入 库 之 后 ， 也 极 少 进行 更 新 。 大 部 分 的 操作 是 查询 ， 
通过 查询 来 取得 信息 、 定 位 问题 、 进 行业 务 优化 、 做 方向 决策 等 。 

© 反映 历史 变化 的 。 

粮仓 里 面 的 粮食 都 会 被 明确 标注 : 粮食 的 收获 日 期 、 重 量 等 。 数 据 仓库 也 会 不 断 地 从 
业务 库 、 日 志 数 据 等 多 种 来 源 获取 数据 ， 标 注 它 的 生成 时 间 ， 并 把 它们 放 入 仓库 中 。 数 据 
积累 的 多 了 ， 整 个 数据 仓库 就 能 反映 出 每 部 分 数据 的 历史 变化 。 历 史 变 化 的 情况 指明 了 业 
务 的 变迁 (粮食 产量 的 变迁 )， 指 导 现 阶段 的 健康 指标 (今年 粮食 产量 是 否 合理 )， 同 时 ， 也 可 
以 用 来 预测 未 来 的 业务 指标 (未 来 一 段 时 间 粮 食 产量 的 预期 )。 

上 面 我 们 讲述 了 Inmon 对 数据 仓库 的 定义 , 他 是 从 数据 仓库 的 特征 给 出 的 形式 化 定义 。 
但 是 从 上 面 粮仓 的 例子 ， 聪 明 的 读者 可 能 会 发 现 这 里 有 个 概念 讲 得 很 模糊 。 粮 仓 是 装 粮食 
的 容器 ， 而 上 面 讲 的 数据 仓库 的 定义 描述 的 不 是 装 数据 的 容器 ， 反 而 讲 的 是 数据 内 容 。 

近 些 年 ， 在 互联 网 业界 ， 关 于 “数据 仓库 ”， 确 实 是 每 天 都 在 做 的 事情 ， 但 并 没有 统 
一 的 、 规 范 的 定义 。 实 际 上 ， 数 据 仓库 是 一 个 庞大 的 体系 ， 需 要 很 多 人 为 了 一 个 共同 的 目 
标 去 完成 不 同类 别 的 事情 ， 才 能 构建 好 一 个 完整 、 清 晰 、 规 范 、 业 务 有 用 的 数据 仓库 。 这 
其 中 的 事情 ， 至 少 可 以 分 为 两 类 ; 

e ”针对 数据 内 容 进行 梳理 、 协 调 、 规 范 、 统 一 。 

e ”完成 数据 处 理 、 存 储 、 展 示 等 工具 。 

前 者 关注 的 是 数据 内 容 的 准确 性 、 可 以 理解 性 ， 后 者 关注 的 是 数据 操作 的 效率 、 管 理 
上 的 易 用 。 针 对 这 样 的 一 类 区 分 ， 我 们 可 以 给 数据 仓库 继续 如 下 的 定义 。 

Q) 定义 2: 数据 仓库 是 企业 中 针对 海量 数据 的 管理 机 制 及 其 相关 工具 平台 的 总 称 。 

本 书 给 出 的 这 个 定义 对 于 数据 仓库 的 实施 更 有 指导 意义 。 它 明确 指出 ， 要 构建 数据 仓 
库 ， 必 须 有 人 去 做 数据 管理 ， 而 且 要 有 机 制 ， 还 要 有 人 去 做 相关 的 平台 和 工具 。 

定义 中 给 出 的 两 个 方面 互相 依存 、 互 不 可 以 缺少 : 没有 数据 内 容 的 管理 ， 数 据 工具 平 
台 就 没有 价值 ， 没 有 了 工具 平台 ， 数 据 内 容 就 会 陷入 一 片 混乱 。 一 般 来 说 ， 不 论 要 做 多 大 
规模 的 数据 仓库 ， 这 两 方面 都 是 齐头并进 ， 相 生 相 息 的 。 

这 里 的 定义 ， 只 是 为 了 方便 读者 的 理解 和 工作 实践 的 思考 。 本 书后 面 的 内 容 中 ， 不 会 
特别 去 关注 和 提示 所 述 是 定义 中 的 哪 一 部 分 ， 感 兴趣 的 读者 可 以 自行 揣摩 和 梳理 。 


8.1.2 ”数据 仓库 与 数据 库 


在 大 数据 出 现 之 前 ， 数 据 库 在 传统 应 用 中 ， 占 据 了 十 分 重要 的 地 位 一 一 所 有 业务 数据 
的 存储 都 使 用 数据 库 ， 因 此 也 出 现 了 MySQL、Access、DB2、Oracle、SQL Server 等 很 多 数 
据 库 和 厂商 。 其 业务 应 用 的 结构 一 般 如 图 8-1 所 示 。 
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图 8-1 数据 仓库 出 现 之 前 的 业务 结构 


而 随 着 企业 数据 量 的 增 大 ， 为 了 更 多 数据 的 存储 和 分 析 的 需要 ， 数 据 仓库 出 现 了 ， 变 
成 了 如 图 8-2 所 示 的 结构 。 


企业 级 


分 析 应 用 








82 ”有 了 数据 仓库 后 的 业务 结构 

数据 库 和 数据 仓库 的 相同 点 是 : 它们 都 是 数据 的 存储 方式 。 那 它们 有 什么 不 同 呢 ? 

1. 存储 的 内 容 不 同 

在 传统 的 业务 应 用 中 ， 业 务 逻辑 会 随时 来 获取 数据 和 修改 数据 ， 数 据 库 里 面 需 要 时 刻 
保持 自己 的 数据 是 最 新 的 (有 一 些 数据 库 技术 是 用 来 保证 毫秒 级 主 从 同步 或 多 从 库 的 状态 一 
致 )。 而 数据 仓库 中 存储 的 是 非常 多 的 历史 数据 ， 如 日 志 数 据 、 业 务 应 用 的 快照 数据 、 工 作 
组 数据 等 。 

2. 用 途 不 同 

一 套数 据 库 一 般 是 一 套 业务 应 用 的 存储 介质 ， 用 来 提供 业务 需要 的 数据 。 而 数据 仓库 
一 般 是 使 用 大 量 的 历史 数据 、 相 关 维 度 、 相 关 工具 等 一 起 来 做 分 析 工 作 ， 这 种 分 析 工 作 ， 
可 能 会 作为 管理 者 决策 支持 的 依赖 ， 可 能 会 是 业务 模式 修改 的 依据 、 也 可 能 是 业务 系统 修 
改 和 变更 的 考量 。 

3. 存 取 速 度 要 求 不 同 


数据 库 的 存 取 速度 直接 影响 到 业务 系统 的 访问 速度 ， 进 而 影响 用 户 体 验 和 业务 表现 ， 
所 以 ,数据库 的 存 取 速度 一 般 要 求 很 高 (大 部 分 都 在 毫秒 级 )。 而 分 析 工 作 一 般 会 持续 较 长 的 








第 8 章 数据 仓库 概论 O 


一 段 时 间 ， 因 此 ， 这 个 分 析 工 作 是 可 以 接受 分 钟 级 甚至 几 十 分 钟 的 延迟 的 。 

4. 存储 的 数据 量 不 同 
因为 数据 仓库 存储 了 上 日志、 业务 系 统 快照 等 很 多 数据 ， 所 以 它 的 数据 量 一 般 比 数据 库 
大 很 多 。 常 见 的 业务 应 用 数据 库 的 存储 量 在 MB 到 几 百 MB 之 间 ， 而 数据 仓库 一 般 在 几 百 
GB 到 几 百 TB 甚至 几 十 PB 级 别 。 随 着 大 数据 领域 的 发 展 ， 这 个 单位 几 年 之 后 还 会 再 经 历 
几 个 翻 翻 。 

5. 存在 时 间 不 同 

数据 库 里 面 只 保存 最 新 的 业务 数据 ， 只 要 有 新 的 请 求 过 来 ， 旧 的 数据 就 不 复 存 在 了 。 
而 在 数据 仓库 中 ， 数 据 一 般 是 会 保存 数 月 至 数 年 (一 般 由 于 审计 需要 ， 企 业 数据 仓库 至 少 要 
保存 一 年 以 上 )。 对 于 现在 的 大 型 IT 公司 来 说 , 一般 会 把 自 成 立 起 就 依赖 的 所 有 数据 当 作 资 
产 来 保存 ， 以 备 未 来 不 可 预知 的 分 析 需 要 。 


6. 存 取 方 式 不 同 


业务 系统 会 有 各 种 操作 ， 所 以 数据 库 的 操作 一 般 会 包括 增删 查 改 ， 这 种 操作 一 般 都 是 
记录 级 的 细小 操作 ， 而 且 并 发 度 会 很 高 (比如 每 秒 几 百 次 )。 

而 我 们 看 到 在 图 8-2 中 , 数据 仓库 的 数据 流向 是 单 向 的 , 业务 系统 中 的 数据 会 进入 数据 
仓库 ， 这 是 批量 加 载 的 操作 ; 之后， 数据 仓库 的 数据 会 流向 企业 级 分 析 应 用 。 批 量 加 载 数 
据 不 会 修改 历史 ， 而 只 会 批量 地 增加 数据 ， 这 种 操作 一 般 不 会 十 分 频繁 ， 常 见 的 是 按 小 时 、 
按 天 地 来 加 载 。 对 于 分 析 应 用 来 说 ， 它 们 只 会 从 数据 仓库 中 读 取 数 据 来 做 各 种 模型 ， 但 不 
会 修改 数据 ， 这 种 读 取 操作 可 能 次 数 会 稍 多 (但 也 不 会 像 数 据 库 操作 那么 多 )。 


8.1.3 ”为 什么 要 有 数据 仓库 


在 大 规模 数据 出 现 之 前 ， 业 务 分 析 是 通过 数据 库 实现 的 。 在 互联 网 时 代 之 前 ， 公 司 间 
的 IT 系统 是 割裂 的 。 每 一 家 公司 的 系统 只 管理 自己 的 业务 : 产品 数据 、 客 户 数据 、 订 单数 
据 等 都 存放 在 数据 中 ， 表 现形 式 是 不 同 的 表 。 由 于 业务 规模 小 ， 日 常 的 报表 都 只 需要 从 数 
据 库 里 面 执行 一 个 SQL 就 能 完成 ， 对 未 来 业务 规模 的 预期 也 完全 依照 管理 者 的 经 验 。 

随 着 IT 基础 设施 的 普及 , 和 企业 规模 的 扩大 , 一 个 数据 库 已 经 不 能 满足 业务 上 的 需要 ， 
可 能 需要 多 套 面 向 不 同业 务 的 TT 系统 , 因此 , 管理 者 也 不 能 每 天 都 通过 执行 一 个 SQL 来 完 
成 例 行 的 报表 工作 。 

业务 基础 架构 ， 根 据 不 同 的 模式 ， 会 有 不 同 的 设计 。 但 对 于 每 一 家 公司 来 说 ， 都 需要 
根据 已 有 数据 ， 来 做 分 析 和 决策 ， 这 时 候 ， 他 们 就 需要 拿 到 海量 的 数据 ， 经 过 非常 多 的 处 
理 、 整 合 ， 来 形成 一 套 可 理解 的 架构 ， 进 而 才能 产 出 报表 、 分 析 报告 、 易 于 理解 的 数据 产 
品 、 数 据 挖掘 得 到 的 策略 等 。 这 套数 据 架构 和 里 面 的 数据 ， 就 是 数据 仓库 ， 数 据 仓 库 是 最 
先 在 大 型 企业 中 兴起 的 ， 因 此 ， 我 们 经 常会 听 到 “企业 级 数据 仓库 ”这 个 名 称 。 

这 里 我 们 也 注意 到 ， 每 家 企业 都 会 有 基于 数据 仓库 的 报表 、 分 析 、 挖 掘 等 需求 ， 所 以 
在 抛 开 数据 内 容 的 差异 后 ， 我 们 会 发 现 ， 数 据 仓库 的 架构 会 有 类 似 的 地 方 。 因 此 也 就 有 了 
传统 行业 数据 仓库 厂商 ， 如 Teradata、Oracle、IBM 等 ， 这 些 厂商 会 提供 面向 行业 的 通用 的 
数据 基础 架构 。 对 于 一 家 企业 来 说 ， 在 有 限 的 人 力 和 资金 条 件 下 ， 可 以 选择 一 款 适 合 的 产 
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品 ， 从 而 使 自己 具有 数据 驾驭 能 力 ， 能 够 让 业务 从 数据 提取 的 信息 中 受益 。 

随 着 互联 网 的 普及 ， 信 息 大 爆炸 时 代 到 来 了 ， 出 现 了 服务 数 百 万 、 数 亿 人 的 大 型 网 站 ， 
因此 , 新 的 业务 模式 也 不 断 涌现 出 来 : 门户 网 站 、 搜 索引 擎 .即时 通信 、 电 子 商 务 .O2O(Online 
To Offline) 等 。 由 于 互联 网 企业 迅猛 的 发 展 ， 传 统 数据 仓库 的 产品 很 难 覆盖 到 如 此 快速 的 变 
化 ， 因 此 ， 大 型 互联 网 企业 都 拥有 自己 的 数据 团队 ， 他 们 会 负责 数据 仓库 的 技术 架构 和 数 
据 仓 库 内 容 的 梳理 。 

本 书后 面 所 介绍 的 数据 仓库 的 内 容 ， 都 是 基于 中 国 互联 网 行业 近 几 年 的 实施 经 验 做 的 
总 结 和 梳理 。 


8.2 数据 仓库 的 核心 概念 


如 果 你 关注 数据 领域 ， 经 常会 听 到 很 多 与 数据 仓库 相关 的 名 词 ， 听 起 来 都 是 似 懂 非 懂 
的 。 本 节 将 与 读者 一 起 ， 认 识 一 下 这 些 名 词 ， 从 概念 的 角度 ， 来 看 看 它们 与 数据 仓库 是 什 
么 关系 ， 或 者 是 数据 仓库 的 哪些 组 成 部 分 。 由 于 大 部 分 概念 在 业界 很 少 有 公认 的 定义 ， 甚 
至 不 同 公司 在 相关 工作 的 职责 和 定位 上 都 很 不 相同 ， 所 以 我 们 尽量 从 易于 理解 的 层面 ， 来 
整理 相关 的 概念 。 


8.2.1 数据 平台 


数据 平台 (业界 有 人 会 简称 为 DMP，Data Manipulation Platform)， 顾 名 思 义 ， 就 是 数据 
相关 的 平台 ， 它 是 指 完成 数据 生成 、 数 据 传输 、 数 据 存储 、 数 据 建 模 、 数 据 分 析 、 数 据 展 
示 等 一 项 或 多 项 工作 的 一 套 系统 。 

不 同 企业 的 数据 平台 ， 其 架构 设计 、 实 现 方式 、 功 能 点 都 会 有 很 大 的 差异 ， 完 全 是 依 
照 企 业 发 展 的 态势 、 相 关 技术 架构 和 业务 需求 等 多 方面 协调 之 后 的 结果 。 但 大 部 分 数据 平 
台 都 会 提供 个 性 化 定制 数据 服务 的 特点 。 

数据 仓库 重点 关注 海量 数据 的 存储 方式 、 模 型 及 相关 工具 。 如 果 狭 义 地 理解 ， 可 以 把 
它 作为 数据 平台 中 数据 存储 、 数 据 建 模 这 一 部 分 。 业 界 对 于 数据 平台 和 数据 仓库 这 两 个 概 
念 的 理解 和 管理 模式 ， 一 般 会 有 下 面 两 种 。 

一 种 常见 的 管理 模式 是 把 数据 平台 作为 一 整套 基础 架构 ， 而 数据 仓库 作为 其 中 间 处 理 
的 一 个 环节 ， 从 而 形成 一 整套 体系 。 在 这 种 方案 中 ， 数 据 平台 和 数据 仓库 是 一 整套 体系 ， 
它们 需要 遵循 相同 的 规范 、 流 程 ， 即 数据 仓库 是 整个 数据 平台 的 一 个 环节 。 这 种 模式 的 好 
处 ， 是 仓库 属于 平台 的 一 个 部 分 ， 接 口 一 致 ， 易 于 管理 ， 易 于 追查 问题 ， 浆 端 是 数据 仓库 
的 实施 可 能 会 受 限于 数据 平台 整体 的 框架 ， 扩 展 性 不 够 ， 数据 仓库 工具 的 定位 和 实施 也 会 
牵动 数据 平台 的 架构 变化 。 

另 一 种 模式 是 让 数据 平台 完成 数据 传输 和 存储 的 基础 功能 ， 最 上 层 是 数据 产品 的 实施 ， 
中 间 层 的 数据 处 理 过 程 交 给 数据 仓库 来 做 。 在 这 种 方式 中 ， 数 据 仓 库 只 需要 关注 中 间 层 数 
据 流 ， 可 以 有 自己 的 架构 和 处 理 模 式 ， 因 此 ， 数 据 仓库 架构 和 实施 理论 都 是 独立 的 ， 只 需 
要 面向 下 层 做 好 数据 入 口 、 面 向 上 层 做 好 数据 出 口 。 这 种 模式 的 好 处 是 ， 数 据 仓库 独立 成 
为 一 整套 体系 ， 可 以 根据 需求 不 断 地 更 新 仓库 的 结构 ， 易 于 扩展 ; 次 端 是 仓库 团队 很 难为 
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数据 源 的 准确 性 和 实施 方案 出 谋划 策 ， 业 务 使 用 和 数据 生成 部 分 会 有 脱节 的 情况 。 


以 上 两 种 模式 的 对 比如 图 8-3 所 示 。 





图 8-3 ”两 种 模式 的 对 比 


目前 的 互联 网 企业 都 会 把 数据 平台 和 数据 仓库 的 工作 放 在 一 个 大 的 团队 中 来 做 ( 叫 作 数 
据 仓 库 团队 或 数据 平台 团队 )， 并 且 会 与 业务 团队 和 产品 开发 团队 有 密切 的 合作 ;但 是 ， 采 
用 哪 种 模式 一 般 不 太 固定 ， 会 根据 情况 选择 一 种 时 下 适合 的 机 制 。 


822 ”数据 产品 


在 数据 平台 和 数据 仓库 出 现 之 前 ， 就 已 经 有 数据 产品 了 。 比 如 国家 统计 局 会 提供 各 个 
行业 的 发 展 报告 ， 比 如 天 气 预报 ， 比 如 蔬菜 价格 行情 等 。 它 们 都 是 把 原始 的 数据 加 以 包装 ， 
形成 一 个 易于 理解 和 方便 使 用 的 文件 、 服 务 、 展 演 等 。 这 就 是 广义 的 数据 产品 。 

狭义 的 数据 产品 是 指 : 组 织 内 将 原始 数据 经 过 数据 平台 或 者 数据 仓库 的 处 理 后 ， 形 成 
的 有 形 的 数据 展示 、 提 取 、 使 用 的 平台 。 一 般 来 说 ， 数 据 产 品 都 会 有 丰富 的 界面 展示 ， 有 
多 种 交互 操作 ， 能 够 进行 复杂 的 业务 分 析 。 

本 书后 面 所 说 的 数据 产品 ， 都 是 指 狭义 的 数据 产品 。 

数据 产品 有 对 内 的 (只 有 公司 内 部 员工 可 以 访问 )， 也 有 对 外 的 。 对 内 的 ， 有 例如 报表 系 
统 、 分 析 模 式 集成 、 多 维 分 析 OLAP 等 。 对 外 的 ， 有 例如 淘宝 的 数据 魔方 、 淘 宝 指数 、 百 
度 风云 榜 、 百 度 大 数据 + 等 。 它 们 都 是 基于 企业 海量 数据 ， 经 过 建 模 和 挖掘 ， 给 用 户 提供 
有 价值 的 指导 。 

数据 产品 有 免费 的 ， 也 有 整个 产品 或 者 部 分 功能 是 收费 的 ， 后 者 基于 “通过 数据 鼻 利 ” 
的 思路 ， 也 是 数据 价值 的 一 个 体现 。 当 企业 的 数据 建设 发 展 到 一 定 规模 后 ， 一 般 都 会 考虑 
通过 数据 价值 来 “变现 ”。 

从 表现 形态 上 来 看 , 数据 产品 有 报表 型 产品 (静态 报表 /Dashboard/ 即 席 查询 )、 多维 分 析 
产品 (OLAP， 后 面 会 详细 介绍 )、 定 制 型 服务 产品 (根据 业务 需求 来 定制 产品 内 容 和 功能 )、 
智能 型 产品 (通过 数据 挖掘 ， 提 供 一 些 深度 的 业务 解读 和 预测 )、 使 能 型 产品 (通过 模型 的 植 
入 和 数据 表现 ， 提 供 方向 性 建议 ， 或 者 直接 影响 产品 )。 
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8.23 ”商务 智能 (B1) 


商务 智能 和 决策 支持 都 是 数据 产品 的 范畴 。 

商务 智能 产品 (Business Intelligence，BD 是 针对 某 类 商务 场景 ， 基 于 复杂 数据 模型 和 挖 
气 结 果 的 ， 具 备 一 些 复杂 商务 逻辑 的 数据 产品 。 一 般 来 说 ， 商 务 智能 产品 是 指导 一 部 分 具 
体 商务 活动 的 产品 。 

决策 支持 产品 (Decision Support System, DSS) 是 面向 公司 决策 层 的 日 常数 据 供应 和 分 析 
支持 的 产品 。 一 般 来 说 ， 决 策 支持 产品 都 具备 公司 整体 业务 状况 、 运 营 状 况 的 数据 展示 。 


8.2.4 元 数据 


简单 地 说 ， 元 数据 就 是 关于 数据 的 数据 ， 可 以 理解 为 数据 仓库 的 数据 字典 。 正 如 我 们 
在 操作 系统 中 要 存储 文件 /目录 的 元 数据 : 文件 名 、 文 件 大 小 、 文 件 类 别 、 创 建 人 、 修 改 人 、 
访问 时 间 等 ， 在 数据 仓库 中 也 要 记录 这 些 信息 。 如 果 没 有 这 些 信 息 ， 数 据 仓 库 中 的 数据 就 
变 成 了 无 意义 的 0 和 1 了 。 

数据 仓库 的 元 数据 包括 : 数据 仓库 的 数据 来 源 信息 、 数 据 模型 信息 、 业 务 数据 与 数据 
仓库 数据 结构 的 映射 、 仓 库 数 据 的 使 用 情况 等 。 

这 里 举 几 个 典型 的 数据 仓库 元 数据 的 例子 : 

e ”数据 仓库 表 的 结构 。 
数据 仓库 表 的 属性 (如 存储 格式 、 备 注 等 )。 
数据 仓库 表 的 源 数 据 (是 从 哪里 来 ， 或 者 怎么 计算 来 的 )。 

从 源 数据 到 仓库 表 的 映射 关系 (包括 其 中 的 处 理 逻 辑 )。 
数据 模型 的 说 明 (依赖 关系 等 )。 

e ”生成 /访问 记录 。 

在 一 个 具有 良好 设计 的 数据 仓库 系统 中 ， 大 部 分 元 数据 是 通过 系统 的 锚 点 (是 指 记录 元 
数据 的 数据 仓库 架构 中 的 插入 点 ， 当 数据 流 经 锚 点 或 者 有 访问 锚 点 的 请 求 时 ， 元 数据 就 会 
被 自动 记录 ) 自 动 记录 的 ， 之 后 ， 个 别 无 法 自动 化 的 地 方 是 人 工 去 输入 的 。 

准确 和 完备 的 元 数据 信息 ， 为 数据 仓库 的 规范 化 、 可 持续 性 打下 了 良好 的 基础 ， 数 据 
仓库 的 模型 设计 、 开 发 实施 、 运 维 管理 、 问 题 排 查 以 及 升级 改造 都 要 依赖 于 这 些 元 数据 。 
元 数据 是 数据 仓库 不 可 或 缺 的 最 重要 的 组 成 部 分 。 

好 的 元 数据 是 数据 仓库 项 目 成 功 的 关键 。 如 果 希 望 搭建 长 期 的 数据 仓库 ， 为 业务 提供 
服务 ， 那 从 一 开 调 研 ， 就 要 记录 好 每 一 个 环节 的 元 数据 ， 而 且 后 面 的 所 有 数据 处 理 和 平台 
化 都 需要 充分 考虑 元 数据 的 记录 和 管理 。 

业界 还 有 一 种 更 高 级 的 实施 方案 ， 就 是 元 数据 驱动 的 问题 探查 和 业务 分 析 ， 就 是 通过 
元 数据 的 状态 来 检查 任务 的 执行 ， 进 而 定位 问题 ， 并 完成 基础 的 、 自 动 的 数据 分 析 。 





8.25 OLAP 


在 线 分 析 处 理 系统 (Online Analytical Processing System，OLAP) 与 联机 事务 处 理 系统 
(Online Transactional Processing System, OLTP)HXI Nj. OLAP 是 数据 仓库 最 重要 的 应 用 ， 
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本 书后 面 8.4 节 会 重点 介绍 这 部 分 知识 。 


8.26 ETL 


ETL(Extract、Transform、Load) 是 数据 仓库 中 连接 多 层次 数据 的 数据 处 理 步骤 ， 也 是 完 
成 数据 仓库 模型 建设 的 基础 ， 本 书后 面 的 8.5 节 会 重点 介绍 这 部 分 知识 。 


82.7 ”数据 质量 


建筑 工程 项 目 讲求 施工 质量 ， 质 量 关 平生 命 ， 没 有 质量 的 工程 是 不 可 信赖 的 。 在 数据 
仓库 中 的 施工 质量 主要 体现 在 数据 质量 上 。 

数据 质量 是 数据 仓库 中 数据 内 容 是 否 符合 业务 及 数据 流 定 义 的 衡量 标准 。 即 ， 最终 提 
供给 业务 的 数据 需要 符合 业务 的 定义 ， 中 间 的 处 理 过 程 需要 符合 最 初 对 数据 处 理 方式 的 定 
义 。 只 有 具有 良好 数据 质量 的 数据 才 是 可 信 的 ， 也 才 是 对 业务 有 意义 的 。 

在 数据 仓库 实施 的 过 程 中 ， 会 有 诸多 因素 的 影响 ， 导 致 出 现 数据 质量 问题 。 比 如 ， 需 
求 调研 不 到 位 ， 团 队 就 无 法 知道 真正 的 、 确 切 的 需求 内 涵 ， 数据 梳理 遗漏 ， 会 导致 最 终 处 
理 结果 不 准确 ， 中 间 处 理 过 程 不 规范 ， 会 导致 偶发 的 Bug 等 。 因 此 ， 要 保证 数据 质量 的 良 
好 ， 在 整个 仓库 建设 的 过 程 中 ， 不 论 是 数据 内 容 ， 还 是 相关 工具 ， 都 要 有 据 可 查 、 有 法 可 
依 ， 产 出 的 结果 必须 是 稳定 的 、 可 靠 的 、 经 过 校 验 的 。 

几 年 前 ， 作 者 曾经 亲身 经 历 过 国内 一 家 非常 大 的 公司 的 一 个 典型 的 数据 质量 问题 。 同 
一 个 数据 接口 为 部 门 A 和 部 门 B 的 多 个 线 上 模块 提供 服务 。 但 由 于 大 部 门 之 间 各 自 都 忙于 
自己 的 业务 ， 很 少 有 时 间 去 特别 关注 整体 的 业务 一 致 性 和 数据 一 致 性 。 直 到 某 一 天 ， 由 于 
公共 的 数据 接口 出 现 问题 ， 导 致 B 部 门 的 线 上 服务 出 现 了 几 十 分 钟 的 故障 ， 影 响 用 户 达 几 
千 万 ， 影 响 收入 达 几 百 万 。 这 个 时 候 ， 所 有 相关 方才 坐 在 一 起 去 做 事件 分 析 ， 去 梳理 数据 
的 含义 。 

目前 ， 各 大 公司 都 非常 重视 数据 质量 ， 有 的 公司 甚至 请 数据 仓库 相关 的 工作 人 员 和 制定 
计划 ， 专 门 开辟 几 个 季度 甚至 一 两 年 的 时 间 来 提高 数据 质量 ， 正 是 为 了 从 一 开始 就 想 办 法 
避免 上 面 所 说 的 问题 。 然 而 ， 数 据 质量 是 一 个 多 方位 、 复 杂 的 、 系 统 性 的 问题 ， 如 果 想 彻 
底 解 决 ， 除 了 在 工程 质量 、 工 作 规范 等 方面 指定 硬性 要 求 外 ， 还 需要 相关 的 人 员 具 有 数据 
质量 的 意识 和 持之以恒 的 对 高 数据 质量 的 追求 、 对 业务 负责 的 态度 ， 这 样 才能 真正 有 效 、 
长 期 地 避免 数据 质量 问题 的 发 生 。 


8.3 ”数据 仓库 中 的 数据 内 容 划 分 


前 面 我 们 在 讲解 数据 平台 的 时 候 ， 看 到 了 两 种 数据 仓库 位 置 的 示意 图 。 数 据 仓 库 上 层 
对 接 业 务 ， 下 层 对 接 功 能 简捷 的 数据 平台 或 者 数据 平台 的 数据 接 入 部 分 。 基 于 这 种 概念 ， 
我 们 在 讨论 数据 仓库 体系 结构 的 时 候 ， 就 只 关注 具有 上 下 依赖 的 数据 仓库 这 一 部 分 。 


8.3.1 多 个 数据 仓库 
对 于 中 小 组 织 来 说 ， 构 建 一 个 完整 的 、 集 成 了 组 织 内 所 有 数据 的 数据 仓库 是 一 个 好 办 
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法 。 当 有 数据 需要 入 库 的 时 候 ， 将 数据 放 入 这 个 数据 仓库 ， 当 有 数据 需要 分 析 的 时 候 ， 直 
接 从 这 个 数据 仓库 来 获取 数据 。 
当 组 织 变 得 越 来 越 大 (比如 上 万 人 或 者 更 多 )、 业 务 越 来 越 丰富 、 业 务 逻 辑 越 来 越 复 杂 的 
时 候 ， 如 果 仍旧 使 用 单独 一 个 大 型 数据 仓库 ， 运 转 起 来 会 非常 吃力 。 这 个 时 候 ， 一 般 会 根 
据 业务 线 的 不 同 ， 来 选择 建立 多 个 不 同 的 数据 仓库 。 

比如 , 在 图 8-4 的 右 侧 , 这 个 组 织 是 根据 旧 有 业务 的 逻辑 结构 , 划分 成 了 用 户 数据 仓库 、 
客户 数据 仓库 、 销 售 数据 仓库 ， 并 将 新 业务 的 数据 单独 作为 一 个 数据 仓库 。 


| | 
| 
L. NL — 
| KL 
图 8-4 组织 内 一 个 和 多 个 数据 仓库 的 逻辑 结构 
大 型 组 织 内 使 用 逻辑 分 离 的 多 个 数据 仓库 的 好 处 如 下 。 
1. 降低 沟通 代价 
数据 仓库 的 整个 流程 中 ， 沟 通 工作 一 直 贯 穿 其 中 ， 占 据 了 所 有 工作 的 很 大 比重 。 比 如 
数据 调研 、 分 层 设 计 、 元 数据 管理 、 运 维 等 。 在 业务 逻辑 复杂 、 人 员 众 多 的 场景 下 ， 沟 通 
代价 尤为 突出 。 作 者 曾经 历 过 ， 为 了 完成 一 项 数据 的 统一 ，3、4 位 数据 产品 经 理 在 多 个 部 
门 之 间 沟 通 了 近 一 周 ， 可 以 想象 ， 如 果 把 数据 仓库 中 非常 多 的 数据 项 都 弄 清 意义 、 来 源 、 
口径 并 征 得 所 有 人 员 的 认同 ， 会 是 多 么 大 的 工作 量 。 
在 多 个 数据 仓库 架构 中 ， 组 织 内 的 数据 产品 只 需要 重点 关注 所 在 子 数据 仓库 的 所 有 数 
据 ， 效 率 会 提高 很 多 。 
2. 业务 上 的 快速 响应 


正 因为 沟通 代价 降低 了 ， 相 应 的 层次 设计 也 会 更 明晰 ， 功 能 开发 和 数据 准备 周期 也 会 
更 短 ， 所 以 业务 上 能 够 获得 更 快 的 响应 速度 。 


3. 个 性 化 支持 


在 单个 数据 仓库 的 大 型 组 织 内 ， 要 做 任何 数据 修改 、 功 能 支持 ， 都 要 牵 一 发 而 动 全 身 
小 改动 都 要 评估 大 影响 。 而 当 只 需要 关注 一 部 分 业务 的 时 候 ， 可 以 做 较 多 的 个 性 化 的 事情 。 
比如 ， 客 户 数据 仓库 可 以 提供 更 复杂 的 客户 分 级 逻辑 和 依赖 此 数据 的 管理 工具 ， 而 不 必 担 
心 这 部 分 数据 和 工具 因 对 其 他 数据 内 容 的 无 效 性 而 影响 架构 的 问题 。 

另外 ， 也 可 以 根据 业务 规模 大 小 、 重 要 性 高 低 等 因素 ， 来 决定 在 不 同 的 数据 仓库 上 投 
入 的 人 力 、 物 理 规模 。 比 如 ， 新 业务 属于 探索 性 质 ， 可 能 给 予 较 少 的 人 力 来 做 比较 基本 的 
仓库 支持 。 

上 面 我 们 关注 了 在 大 型 组 织 内 启用 逻辑 上 的 多 个 数据 仓库 的 好 处 。 我 们 可 能 会 问 这 种 
方式 是 不 是 会 有 什么 弊端 ? 聪明 的 读者 可 能 已 经 想到 了 ， 会 不 会 造成 IT 基础 架构 的 重复 建 
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设 ? 是 的 ， 这 是 一 个 在 多 个 数据 仓库 架构 下 必须 要 考虑 的 问题 。 
这 个 问题 如 果 解 决 不 好 ， 就 会 变 成 整 大 于 利 的 事情 。 成 熟 的 大 型 互联 网 公司 一 般 会 有 
如 图 8-5 所 示 的 数据 仓库 IT 架构 。 











图 8-5 多 个 数据 仓库 的 IT 架构 示意 图 


从 中 可 以 看 到 整个 组 织 内 的 大 数据 体系 ， 首 先 会 有 一 个 中 央 的 数据 仓库 架构 ， 会 对 各 
业务 分 支 的 数据 仓库 提供 技术 支持 。 有 的 时 候 ， 组 织 内 最 核心 的 业务 数据 仓库 也 是 由 中 央 
数据 仓库 架构 所 在 的 部 门 来 负责 的 。 

在 这 种 架构 下 ， 中 央 数 据 仓 库 架 构 的 所 有 IT 基础 设施 都 会 向 上 层 的 业务 数据 仓库 团队 
开放 。 上 层 的 仓库 团队 可 以 直接 利用 现 有 的 统一 的 规范 和 平台 来 构建 最 基础 的 数据 仓库 数 
据 ， 而 最 基础 的 数据 ， 大 部 分 时 候 ， 也 已 经 在 核心 业务 数据 仓库 中 包含 了 。 上 层 的 各 业务 
线 大 大 节省 了 基础 架构 搭建 开销 和 规范 指定 开销 ， 以 及 一 部 分 核心 数据 的 整理 和 入 库 开 销 ， 
它们 只 需要 完成 业务 线 最 关注 的 那 部 分 数据 就 可 以 了 。 


8.32 ”典型 的 数据 仓库 分 层 
在 常见 的 数据 仓库 理论 中 ， 对 于 数据 仓库 中 的 数据 分 层 是 具有 一 致 性 认识 的 ， 分 层 结 


构 如 图 8-6 所 示 。 
细节 层 
图 8-6 ”数据 仓库 的 数据 分 层 
1. 细节 层 


细节 层 又 叫 入 库 层 ， 是 外 部 数据 入 库 后 的 第 一 个 层次 。 

各 大 互联 网 公司 最 初 使 用 数据 仓库 的 时 候 都 是 保存 日 志 数 据 ， 因 为 日 志 数 据 记 录 着 用 
户 的 行为 数据 、 业 务 状态 数据 和 流转 数据 等 ， 是 做 深度 业务 分 析 最 直接 的 数据 (基本 业务 分 
析 可 以 直接 从 业务 库 里 面 查看 数据 )。 同 时 ， 各 大 公司 也 从 大 量 的 日 志 数据 里 面 获取 了 非常 
非常 丰富 的 资源 和 巨大 的 业务 价值 ， 因 此 ， 细 节 层 数据 里 面 ， 最 大 量 、 最 主要 的 数据 是 日 
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志 数 据 。 

细节 层 数据 里 面 还 有 一 类 最 重要 的 数据 ， 是 ODS(Operational Data Store)。 一 般 为 了 节 
省 存储 空间 ， 节 省 网 络 开 销 ， 我 们 在 产品 端 打 日 志 的 时 候 只 会 打印 必需 的 字段 ， 很 多 时 候 
需要 与 业务 库 里 面 的 数据 关联 到 一 起 来 分 析 ， 因 此 ， 业 务 库 里 面 的 数据 也 需要 进入 到 数据 
仓库 中 ， 这 部 分 数据 就 是 ODS 。 
当然 ， 在 真正 实施 数据 仓库 的 时 候 ， 只 有 对 于 分 析 有 益 的 数据 才 应 该 进入 数据 仓库 中 。 
而 且 要 根据 数据 的 种 类 不 同 ， 有 不 同 的 处 理 策 略 、 机 制 和 工具 。 但 是 ， 细 节 层 的 数据 ， 大 
部 分 情况 下 ， 都 会 保留 整个 原始 的 数据 ， 包 括 所 有 的 数据 行 和 所 有 字段 (ODS 可 能 会 只 保留 
预期 有 用 的 字段 )。 


2. 轻 度 汇总 

轻 度 汇总 ， 是 针对 重度 汇总 来 说 的 ， 顾 名 思 义 ， 就 是 只 做 一 部 分 汇总 。 为 什么 不 一 次 
完成 重度 汇总 呢 ? 

在 实际 的 数据 使 用 场景 中 ， 一 份 细节 层 数据 可 能 会 被 使 用 多 次 :在 多 个 工具 中 ， 用 来 
生成 相同 或 者 不 同 的 汇总 数据 ， 或 者 在 多 次 分 析 的 时 候 都 会 获取 。 但 是 ， 它 们 对 同一 份 细 
节 数 据 的 使 用 方式 可 能 会 不 一 样 。 这 个 时 候 ， 就 需要 综合 各 类 需求 ， 来 形成 一 份 能 窗 盖 各 
类 需求 的 中 间 层 表 。 

这 里 一 方面 是 为 了 做 一 套 公共 的 汇总 ， 尽 量 重用 逻辑 、 减 少数 据 ， 另 一 方面 ， 可 以 在 
这 个 层次 去 关联 重度 汇总 都 需要 的 公共 维度 。 

另外 ， 在 这 里 还 需要 考虑 可 扩展 性 ， 尽 量 把 可 预见 的 未 来 将 会 使 用 的 字段 都 保留 下 来 。 

3. 重度 汇总 


重度 汇总 ， 又 叫 高 度 汇 总 。 这 个 层次 会 直接 提供 上 层 的 业务 应 用 需要 的 数据 。 
(omen | 


细节 数据 A 具有 9 个 字段 : al. a2. a3. a4. a5. a6. a7. a8. a9. 
工具 工会 使 用 A 数据 的 4 个 字段 : al. a2. a3. a8. 

工具 M 会 使 用 A 数据 的 4 个 字段 : al. a2. a3. a6. 

分 析 师 日 常 工作 中 常用 A 数据 的 字段 : al. a2. a4. a6. 

短期 内 aS. a7. a9 字段 没有 使 用 场景 。 

这 时 轻 度 汇总 表 Al 就 会 保留 7 个 字段 : al. a2. a3. a4. a6. a8. 
之 后 会 按照 工具 工 、 工 具 M、 分 析 师 的 需求 来 生成 三 张 重度 汇总 表 。 


8.3.3 数据 集 市 


数据 集 市 (Data Marb 也 是 数据 仓库 领域 一 个 特别 常见 的 概念 。 

数据 集 市 ， 也 叫 数据 市 场 ， 是 一 个 从 操作 的 数据 和 其 他 的 为 某 种 特殊 的 专业 人 员 团 体 
服务 的 数据 源 中 收集 数据 的 仓库 。 

正如 概念 所 述 ， 数 据 集 市 也 只 是 一 个 数据 仓库 ， 数 据 集 市 的 特点 是 : 

e 规模 小 ， 通 常 是 面向 部 门 的 。 
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e ”有 特定 的 应 用 。 

e ”由 业务 部 门 定义 、 设 计 、 开 发 和 管理 ， 响 应 快 。 
e ”可 升级 到 完整 的 数据 仓库 。 

典型 的 数据 仓库 和 数据 集 市 的 关系 如 图 8-7 所 示 。 








图 8-7 数据 仓库 和 数据 集 市 的 关系 


但 是 ， 不 可 否认 的 是 ， 数 据 仓库 和 数据 集 市 的 属性 是 相同 的 ， 它 们 的 不 同 点 ， 只 是 规 
模 和 应 用 场景 的 区 别 。 在 组 织 内 ， 数 据 仓库 本 身 也 有 它 自 己 发 展 的 阶段 性 ， 所 以 ， 业 界 也 
不 会 将 数据 仓库 和 数据 集 市 两 个 概念 完全 制 裂 开 来 看 。 





8.4 OLAP 


在 20 世纪 60 年 代 ， 关 系数 据 库 之 父 E.F.Codd 提出 了 关系 模型 ,促进 了 OLTP(OnLine 
Transaction Processing System， 联 机 事务 处 理 系统 ) 的 发 展 。1993 年 ，E.F.Codd 提出 了 
OLAP(OnLine Analytical Processing System， 联 机 分 析 处 理 )， 认 为 OLTP 已 经 不 能 满足 业务 
对 数据 的 需求 ， 计 算 机 行业 即将 记 入 多 维 数据 的 时 代 。 

OLAP 是 数据 仓库 领域 最 著名 、 最 通用 的 应 用 场景 。 任 何 数据 仓库 在 构建 的 时 候 ， 都 要 
考虑 OLAP 应 用 。 


8.4.1 定义 


OLAP 是 基于 对 海量 业务 数据 的 理解 和 建 模 , 系统 化 地 为 用 户 提供 交互 的 多 维 分 析 服务 
可 以 看 到 , OLAP 实际 上 是 一 个 多 维 分 析 的 系统 , 它 与 我 们 经 常 使 用 的 OLTP 有 什么 差 
别 呢 ? 表 8-1 做 了 详细 的 对 比 。 
表 8-1 OLTP 和 OLAP 的 区 别 








OLTP OLAP 



























系统 用 户 组 织 的 外 部 用 户 一 般 是 组 织 内 的 业务 分 析 人 员 
用 户 量 | 很 多 很 少 

操作 类 别 | as 一 般 为 只 读 

响应 速度 毫秒 ， 绝 不 超过 3 秒 秒 级 就 可 以 接受 ， 有 的 时 间 更 长 
后 台数 据 当前 的 、 实 时 变化 的 数据 海量 的 历史 数据 

后 台数 据 模型 常用 实体 关系 模型 星 型 或 者 雪花 模型 


数据 
«ds 从 基础 理论 到 最 佳 实践 


TELE SI, 相 比 于 我 们 日 常 所 用 到 的 OLTP 系统 , 比如 电子 商务 网 站 (淘宝 、 一 号 店 等 )、 
门户 网 站 (新 浪 、 网 易 等 ) 等 ，OLAP 更 着 重 于 给 组 织 内 的 业务 人 员 提 供 分 析 服 务 。 


z| 





8.4.2 维度 建 模 
1. 核心 概念 


在 讲解 多 维 建 模 前 ， 我 们 先 要 知道 如 下 几 个 概念 。 

度量 (Metric， 也 称 作 指标 ): 是 人 们 最 想 关 注 的 最 终结 果 数 据 。 例 如 总 收入 。 

维度 (Dimension): 是 人 们 对 度量 的 最 终 值 的 拆 解 方式 。 例 如 ， 总 收入 的 数据 可 以 分 地 
域 、 分 季度 、 分 用 户 类 别 来 拆 解 ， 其 中 的 地 域 、 季 度 、 客 户 类 别 就 是 维度 。 

多 维 数据 : 将 度量 值 按照 多 个 维度 进行 拆 解 ， 就 形成 了 多 维 数据 。 比 如 总 收入 按照 地 
域 、 季 度 、 客 户 类 别 进行 拆 分 ， 就 可 以 形成 一 个 三 维 的 立方 体 。 下 面 是 一 个 示意 图 (图 8-8)， 
看 起 来 像 是 一 个 4x3x4 的 立方 体 , 因此, 多维 数据 也 叫 多 维 数据 立方 体 (Cube)。 维 度 更 多 的 
时 候 ， 是 不 能 用 空间 几何 的 概念 去 表示 的 ， 但 是 人 们 还 是 依旧 延续 使 用 了 多 维 数据 立方 体 
这 个 名 称 。 





Q1 Q2 Q3 Q4 


8-8 三 维 数 据 示意 图 


切面 (Slice): 也 叫 切 片 ， 是 指 多 维 数据 立方 体 中 确定 了 一 个 维度 之 后 得 到 的 数据 子 集 。 
例如 ， 图 8-8 中 , 我 们 确定 了 地 域 维度 的 值 为 上 海 ， 则 形成 的 数据 子 集 就 是 二 维 的 (Q1、Q2、 
Q3、Q4)*(VIP 客户 、 大 客户 、 中 小 客户 )。 

切 块 (Dice): 是 指 在 多 维 数据 立方 体 中 选择 一 个 局 部 范围 的 数据 块 。 一 般 可 以 选择 一 个 
或 者 多 个 维度 的 一 个 区 间 ， 或 者 任意 的 维 值 。 例 如 ，( 北 京 、 广 州 )*(Q2、Q3)*( 中 小 客户 ) 就 
是 一 个 切 块 。 

上 卷 (Roll-up): 是 指 在 多 维 数据 立方 体 中 ,将 维 值 变换 为 它 的 父 维 值 ， 从 而 获得 汇总 级 
的 数据 。 比 如 ， 图 8-9 中 ， 从 右 到 左 ， 取 季度 维 值 的 父 维 值 (全 年 )， 就 是 一 个 上 卷 操 作 。 这 
个 操作 经 常 发 生 在 分 析 过 程 中 暂时 不 关注 一 个 维度 的 时 候 。 
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下 钼 (Drill-down): 是 指 在 多 维 数据 立方 体 中 ， 将 维 值 变换 为 它 的 子 维 值 ， 从 而 获得 细 
节 级 的 数据 。 比 如 ， 在 图 8-9 中 ， 从 左 到 右 ， 取 季度 维 值 的 子 维 值 Q1、Q2、Q3、Q4)， 就 
是 一 个 下 钻 操作 。 在 多 维 数 据 分 析 时 ， 上 卷 和 下 钻 都 是 常见 的 操作 。 

2. 模型 设计 

数据 模型 是 指 对 数据 仓库 中 各 个 数据 元 素 以 及 它们 之 间 关 系 的 描述 。 由 于 OLAP 是 数 
据 仓 库 里 面 最 具 特 色 的 应 用 ， 因 此 ， 数 据 仓库 建 模 也 叫 维度 建 模 (或 者 多 维 建 模 )。 

OLAP 中 有 两 类 表 : 事实 表 和 维度 表 ， 维 度 表 就 是 对 维度 的 描述 ， 事 实 表 就 是 多 维 立方 
体 中 的 指标 数据 。 在 数据 仓库 多 维 建 模 中 ， 有 两 种 常用 的 模型 设计 方式 ， 星 形 模型 和 雪花 
模型 。 图 8-10 就 是 上 面 举例 的 收入 数据 的 星 型 模型 ， 可 以 看 到 ， 星 形 模 型 的 特点 就 是 所 有 
的 维度 都 是 单独 的 一 张 表 ， 而 且 都 是 事实 表 直 接 依赖 的 维度 表 。 


m 


* usertype id INT 
" D usertype name VARCHAR(45) 








m 
? city id INT 
> city. name VARCHAR(A5) 

> province. name VARCHAR(45) 
2 country name VARCHAR(45) 
Indexes 









9 date VARCHAR(45) 
9q VARCHAR(45) 
2 year VARCHAR(45) 


8-10” 星 型 模型 


通常 ， 在 我 们 的 数据 库 课程 里 面 会 有 范式 的 概念 ， 在 数据 仓库 领域 依旧 有 效 。 我 们 观 
察 一 下 上 面 的 星 型 模式 ， 是 否 还 可 以 有 更 好 的 泛 化 程度 的 模型 ? 图 8-11 是 一 个 雪花 模型 
可 以 看 到 ， 雪 花 模 型 的 特点 是 对 于 维度 中 的 重复 字段 ， 采 用 单独 的 表 进行 关联 。 


m 


? year id INT 
> year VARCHAR(45) 






m 
* country id INT 
country name VARCHAR(45) 
Indexes. 










r 





2 province name VARCHAR(45) 
Q country id INT 
Indexes. 






数据 ; 
«d 从 基础 理论 到 最 佳 实践 “全 


雪花 模型 更 符合 数据 库 设 计 中 的 范式 要 求 ， 但 是 ， 在 查询 数据 的 时 候 ， 需 要 从 事实 表 
进行 多 次 关联 ， 来 获取 不 同 级 别 的 维 值 。 

星 型 模型 和 雪花 模型 各 有 利 次 ， 需 要 根据 业务 的 需要 ， 以 及 查询 引擎 的 状况 选择 合适 
的 方案 ， 并 对 不 同 的 业务 场景 选择 适合 的 方案 。 


上 面 只 是 为 了 讲解 内 容 的 方便 设计 的 一 个 示例 ， 并 不 一 定 是 最 好 的 设计 ， 真 正 实 
施 的 时 候 ， 需 要 根据 情况 ， 来 决定 使 用 的 模型 和 字段 设计 。 


843 ”事实 表 


1. 指标 有 多 种 类 别 


在 数据 仓库 中 的 指标 有 多 种 类 别 。 可 以 按 昭 是 否 允 许 累 加 对 指标 进行 分 类 。 

第 一 种 最 常见 的 就 是 可 以 直接 累加 的 指标 ， 上 面 的 收入 就 是 可 以 累加 的 指标 。 

第 二 种 是 不 能 累加 的 指标 ， 例 如 消费 客户 百分比 。 

第 三 种 是 在 某 些 维度 上 可 以 累加 的 指标 ， 例 如 消费 的 客户 数 ， 在 客户 类 别 维度 上 可 以 
累加 (假设 一 个 客户 的 类 别 是 唯一 的 )， 但 是 ， 在 季度 维度 上 不 可 累加 。 

可 以 按照 指标 值 的 种 类 进行 分 类 ， 整 数 类 指标 、 百 分 比 类 指标 、 小 数 类 指标 。 

还 可 以 从 指标 计算 方式 来 分 类 ， 直 接 计算 指标 、 问 接 计算 指标 (通过 直接 计算 指标 计算 
就 可 以 得 到 )。 

2. 事实 表 存 储 方式 


我 们 看 到 指标 有 这 么 多 种 类 别 ， 那 在 事实 表 里 面 应 该 如 何 存 储 呢 ? 本 书 不 讨论 复杂 的 
系统 设计 ， 我 们 只 关注 一 种 最 简单 的 可 累加 指标 的 存储 。 

TUE. 数据 仓库 中 保存 数据 的 细 化 或 者 综合 程度 的 级 别 。 细 化 程度 越 高 ， 粒 度 越 小 。 

事实 表 的 第 一 种 存储 方式 就 是 只 存储 最 细 粒 度 的 数据 , 在 OLAP 查询 的 时 候 实 时 汇总 ， 
比如 ， 如 图 8-12 所 示 的 最 细 粒 度 的 事实 存储 。 
Ql VIP 客 户 北京 


3 
Ql VIP 客户 上 海 2 
Q1 VIP 客户 广州 3 
3 
2 











Ql VIP 客户 深圳 2: 
Qi 大 客户 北京 























图 8-12 最 细 粒 度 的 事实 存储 


另 一 种 存储 方式 就 是 在 存储 的 时 候 做 预 汇总 ， 这 样 ， 查 询 的 时 候 直接 取 符 合 条 件 的 记 
录 ， 不 存在 实时 计算 环节 ， 这 种 方式 ， 在 一 定 程度 上 能 提高 查询 效率 ， 可 以 给 用 户 提供 更 
快 的 服务 。 

图 8-13 给 出 了 预 汇 总 的 事实 存储 的 一 个 示例 。 
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图 8-13 ” 预 汇 总 的 事实 存储 


8.4.4 维度 表 


一 种 最 简单 的 维度 就 是 一 旦 出 现 ， 则 不 再 改变 ， 比 如 日 期 和 时 间 ( 当 然 ， 我 们 不 讨论 复 
杂 业 务 场 景 中 对 日 期 和 时 间 的 各 种 划分 问题 )。 

在 实际 数据 仓库 建设 的 过 程 中 ， 大 部 分 维度 都 会 存在 更 改 的 可 能 。 如 果 频 繁 更 改 (比如 
每 个 计算 周期 都 会 有 大 比例 修改 )， 则 直接 使 用 新 的 维 值 来 蔡 代 旧 有 的 维 值 。 比 较 复杂 的 一 
种 情况 是 缓慢 变化 维 (Slowly Changing Dimension，SCD)。 

例如 ， 上 面 所 说 的 客户 类 型 ， 当 一 个 客户 刚刚 进入 系统 时 ， 他 是 一 个 中 小 客户 ， 随 着 
客户 的 不 断 成 长 ， 可 能 会 在 一 段 时 间 以 后 变 为 大 客户 ， 进 而 再 变 成 VIP 客户 。 对 于 这 种 情 
况 ， 如 果 我 们 的 客户 信息 维度 表 里 面 只 存储 最 新 的 信息 ， 当 存在 历史 数据 回溯 的 时 候 ， 就 
会 导致 客户 类 别 错乱 。 

对 于 缓慢 变化 维 ， 一 般 有 如 下 几 种 使 用 办 法 : 

e ”只 使 用 最 新 的 维 值 。 在 有 些 特殊 的 业务 场景 下 ， 简 单 处 理 就 能 满足 需求 。 

e ” 维 值 也 保存 所 有 历史 记录 。 

e ”记录 维 值 生效 的 时 间 段 。 在 使 用 维 值 数据 的 时 候 ， 根 据 时 间 来 获取 符合 条 件 的 ， 

例如 ， 如 图 8-14 所 示 的 缓慢 变化 维 记录 起 止 时 间 段 。 










Custom1 


中 小 客户 | 20120109| 20140203 


Customi |VIP 客 户 |20150506 





















图 8-14 缓慢 变化 维 记录 起 止 时 间 段 
本 节 讲 解 了 数据 仓库 中 OLAP 和 建 模 相关 的 知识 ， 这 些 是 直接 面向 上 层 应 用 的 ， 那 么 ， 
从 原始 的 数据 如 何 一 步 一 步 地 形成 OLAP 模型 呢 ， 下 一 节 我 们 来 详细 学 习 。 


数据 仓库 本 身 也 有 它 自 己 发 展 的 阶段 性 ， 所 以 业界 也 不 会 将 数据 仓库 和 数据 集 市 两 个 
概念 完全 割裂 开 来 看 。 


8.5 ETL 


ETL 是 数据 抽取 (Extract)、 转 换 (Transform)、 加 载 (Load) 的 简称 ， 是 指 从 输入 源 获 取 数 
据 ， 把 数据 转换 成 合适 的 格式 并 加 载 到 目标 数据 库 中 ， 是 数据 仓库 中 数据 流转 的 主要 方式 。 
上 一 节 我 们 了 解 和 到 ， 数 据 仓库 会 根据 数据 的 汇总 程度 和 用 途 来 细 分 为 多 个 层次 ， 一 般 
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来 说 ， 仓 库 中 的 数据 ， 都 是 来 自 于 数据 源 ， 经 过 ETL 的 过 程 进入 仓库 的 细节 层 ， 然 后 经 过 
ETL 过 程 完成 经度 汇总 ， 再 经 过 ETL 完成 重度 汇总 ， 从 而 把 数据 提供 给 数据 应 用 方 。 在 整 
个 数据 流动 过 程 的 每 个 阶段 ， 都 是 “输入 ”经 过 ETL 处 理 之 后 得 到 “输出 ”的 过 程 。ETL 
在 数据 仓库 层次 中 的 位 置 如 图 8-15 所 示 。 














8-15 ETL 在 数据 仓库 层次 中 的 位 置 


从 图 8-15 可 以 看 出 ,数据 仓库 的 分 层 结构 指 的 是 仓库 中 的 数据 ， 而 ETL 指 的 是 数据 在 
层次 之 间 的 流转 。ETL 是 数据 仓库 分 层 结构 的 实现 方法 ， 没 有 ETL， 就 没有 办 法 实现 数据 
仓库 的 分 层 结构 。 

ETL 是 数据 仓库 中 最 基础 ， 也 是 最 重要 的 工作 ， 没 有 ETL， 任 何 设想 和 架构 设计 都 是 
纸上谈兵 。 在 大 部 分 数据 仓库 建设 的 过 程 中 ，ETL 大 都 会 占据 工程 实施 工作 70% 以 上 的 工 
作 量 。 


8.5.1 抽取 


通常 ， 数 据 仓 库 中 的 数据 有 多 个 数据 来 源 ， 比 如 日 志 、 各 种 业务 系统 、 用 户 输入 等 。 
而 不 同 来 源 的 数据 一 般 就 会 来 自 不 同 的 位 置 、 不 同 的 存储 架构 和 访问 方式 。 因 此 ， 常 用 的 
抽取 工具 会 根据 业务 需求 的 场景 ， 来 决定 需要 兼容 哪些 数据 源 和 哪些 抽取 方式 。 

海量 的 日 志 一 般 存储 在 机 器 上 或 者 HDFS 上 ， 这 时 的 抽取 一 般 通过 WGET 或 者 
MapReduce 的 方式 来 获取 数据 。 常 见 的 业务 数据 是 存储 在 MySQL/Oracle 等 传统 数据 库 中 
的 ， 这 时 ， 通 常 通过 JDBC 等 方式 来 获取 数据 。 对 于 有 强 用 户 输入 需求 的 场景 ， 一 般 会 给 
用 户 提供 输入 接口 或 者 可 视 化 界面 (当然 ， 这 种 需求 一 般 在 上 层 的 业务 平台 来 满足 )。 


8.5.2 ”转换 
1. 数据 集成 


从 不 同 数据 源 获取 的 数据 ， 会 出 现 五 花 八 门 的 情况 : 对 于 相同 内 容 的 描述 不 一 致 ， 对 
于 相同 内 容 的 编码 、 命 名 也 不 一 致 ， 这 时 候 ， 就 需要 完成 数据 集成 的 工作 。 
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数据 集成 ， 是 指 对 多 种 内 容 、 多 种 存储 方式 的 数据 内 容 做 规范 化 、 归 一 化 的 过 程 。 如 
图 8-16、 图 8-17 所 示 的 这 些 操作 ， 就 是 常见 的 数据 集成 操作 。 


EPA (字段 长度 64) : | 
客户 管理 系统 2005.9.4 注 册 
PA (字段 长 度 256) : 
EPA (字段 长 度 48) : 2005.9.4 注 册 
售后 咨询 系统 | 咨询 过 售后 电话 ， 好 沟通 | mò 咨询 过 售后 电话 ， 好 沟通 
EPA (字段 长 度 128) : 
新 产品 管理 系统 | 没有 使 用 过 新 产品 | 


图 8-16 描述 合并 








没有 使 用 过 新 产品 








客户 管理 系统 : XY 
售后 咨询 系统 : 10 性 别 : M F 
新 产品 管理 系统 : Male FEMALE 


图 8-17 编码 规范 化 

2. 清洗 

清洗 是 指 通 过 一 定 的 数据 处 理 ， 得 到 符合 规范 要 求 数 据 的 过 程 。 

从 仓库 外 的 系统 获取 到 的 数据 ， 通 常 不 是 能 直接 满足 需要 的 数据 ， 它 们 或 者 定义 与 业 
务 需求 不 一 致 ， 或 者 多 出 了 很 多 分 析 无 用 的 业务 字段 ， 或 者 多 出 了 很 多 分 析 无 用 的 业务 记 
录 。 这 个 时 候 ， 就 需要 经 过 一 定 的 数据 转换 ， 来 形成 满足 需求 的 数据 。 清 洗 的 过 程 一 般 有 
三 个 阶段 。 

第 一 个 阶段 ， 是 明确 已 有 数据 的 范畴 。 这 点 是 在 ETL 实施 过 程 中 经 常 被 忽视 的 一 点 ， 
被 忽视 的 原因 ， 通 常 是 ETL 工程 师 通过 观察 ， 自 己 给 数据 下 了 一 个 定义 。 人 工 对 数据 的 观 
察 会 受 限 于 观察 者 的 知识 结构 和 业务 水 平 ， 也 会 受 限于 观测 时 间 和 数据 片段 的 选取 ， 由 于 
ETL 工程 师 不 是 业务 系统 专家 ， 他 通过 观察 数据 ，“ 得 到 的 结论 ”常常 被 证 明 是 片面 的 和 
考虑 不 周 的 。 比 如 这 几 种 情况 : 

e EIL 工程 师 观察 到 的 数据 片段 对 于 所 有 记录 的 字段 C 都 有 值 ， 因 此 在 清洗 的 时 候 

认为 C 字段 必 有 值 ， 实 际 上 ， 数 据 会 在 一 周 内 偶发 C 字段 为 空 。 

e EIL 工程 师 观 察 到 的 数据 片段 所 有 记录 的 汇总 值 恰好 与 需求 方 的 要 求 完 全 一 模 一 

样 ， 因 此 ， 在 清洗 的 时 候 ， 认 为 这 就 是 需求 方 要 求 的 数据 ， 实 际 上 ， 苑 余数 据 出 

现 的 业务 场景 恰好 在 这 个 数据 片段 内 没有 出 现 。 
因此 ， 明 确 数据 范畴 的 时 候 ， 一 定 是 经 过 相关 的 业务 专家 来 详细 确定 数据 的 范畴 ， 和 
细节 的 业务 含义 。 这 个 阶段 一 般 在 数据 调研 的 阶段 完成 一 次 ， 并 签订 “数据 供给 协议 ”( 通 
常 是 组 织 内 认可 的 有 一 定 协议 性 质 的 文字 )。 

第 二 个 阶段 是 将 明确 数据 范畴 的 数据 经 过 规则 变换 (清洗 过 程 通常 是 指数 据 过 滤 规 则 ) 
形成 业务 需求 的 数据 。 因 为 已 经 有 了 明确 的 数据 范畴 和 详细 的 定义 ， 此 时 的 变换 规则 就 能 
选择 比较 合适 的 ， 这 里 的 变化 规则 也 是 历次 数据 供给 都 需要 按照 指定 的 方式 来 运行 的 。 

第 三 个 阶段 是 数据 监测 ， 即 检查 经 过 变换 的 数据 是 否 符合 清洗 的 预期 。 简 单 的 数据 监 
测 ， 就 是 完成 数据 结果 的 总 体 和 抽样 检查 ， 复 杂 的 数据 监测 需要 在 历次 数据 供给 之 后 都 做 
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一 次 探 针 监测 。 当 然 ， 数 据 监测 不 是 清洗 所 特有 的 ， 所 有 的 数据 转换 和 加 载 步骤 都 可 以 植 
入 数据 监测 探 针 。 


3. 其 他 转换 


(1) 排序 。 

需要 排序 的 场景 是 多 种 多 样 的， 例如 按照 Session 的 访问 序列 来 产 出 数据 ;例如 需要 按 
照 某 个 指标 的 结果 值 提供 头 部 数据 。 

(2) 合并 。 

把 数据 合并 起 来 ， 例 如 ， 要 获取 总 的 收入 ， 就 需要 把 各 种 类 型 客户 的 数据 合并 到 一 起 。 

G) 列 剪 枝 。 

大 部 分 时 候 ， 我 们 只 需要 所 有 数据 的 一 部 分 列 来 做 分 析 ， 这 时 ， 就 需要 把 无 关 列 排除 
在 外 ， 这 个 过 程 叫 作 列 剪 枝 。 

(4) 汇总 。 

汇总 就 是 形成 数据 仓库 三 级 层次 结构 的 基础 。 

(5) 累计 。 

累计 是 按照 某 个 规则 ， 生 成 从 开始 时 间 至 今 的 所 有 数据 的 集合 。 通 常 ， 累 计 不 是 简单 
的 合并 。 比 如 ， 需 要 从 2015.1.1 至 今 的 所 有 客户 的 信息 ， 这 里 的 要 求 ， 就 是 每 个 客户 的 信 
息 都 是 唯一 的 (而 不 是 对 2015.1.1 至 今 的 所 有 数据 做 汇总 )。 

(6) 关联 。 

按照 某 些 条 件 ， 把 两 份 数据 关联 到 一 起 ， 以 便于 获取 各 自 的 部 分 字段 。 关 联通 常 是 指 
与 维度 数据 做 关联 ， 以 便于 获取 一 级 或 者 多 级 的 维度 值 ， 从 而 得 到 汇总 值 。 


8.5.3 ”加载 


加 载 就 是 把 数据 装载 到 数据 仓库 的 某 一 个 层次 中 ， 以 便于 上 级 层次 或 者 仓库 用 户 使 用 。 
1. 添加 加 载 


添加 加 载 是 最 常见 的 加 载 方式 。 一 般 组 织 内 在 搭建 数据 仓库 后 ， 需 要 持续 地 做 数据 仓 
库 的 管理 和 运 维 ， 并 保存 一 段 时 间 内 的 历史 数据 。 添 加 加 载 就 是 将 一 个 时 间 周 期 (比如 天 、 
周 等 ) 内 的 数据 直接 添加 到 数据 仓库 中 。 

添加 加 载 的 结果 ， 就 是 数据 在 每 个 时 间 周 期 内 都 会 有 一 份 数据 。 


2. 覆盖 加 载 

覆盖 加 载 就 是 在 加 载 的 时 候 ， 把 原来 的 数据 清理 掉 ， 然 后 再 装载 新 的 数据 。 

覆盖 加 载 的 结果 就 是 数据 只 保留 一 份 。 

3. 累计 加 载 

本 时 间 周 期 的 累计 数据 的 生成 方式 是 : 把 上 一 个 时 间 周 期 内 的 累计 数据 和 本 时 间 周 期 
内 的 数据 做 累计 。 

累计 加 载 的 结果 ， 是 至 少 会 保留 最 近 的 时 间 周 期 的 数据 。 
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4. 单 次 加 载 
顾名思义 ， 单 次 加 载 就 是 只 加 载 一 次 数据 。 也 就 只 有 一 份 数据 (没有 时 间 周 期 的 概念 )。 
5. 数据 初始 化 


上 面 说 的 四 种 加 载 方式 ， 除 了 单 次 加 载 外 ， 其 他 的 都 是 周期 性 加 载 。 对 于 周期 性 加 载 ， 
当 我 们 完成 ETL 工作 后 , 一般 会 涉及 到 历史 数据 回溯 ,历史 数据 回溯 也 是 ETL 无 法 绕 开 的 
一 个 关键 问题 。 

添加 加 载 的 历史 数据 回溯 ， 只 需要 将 需求 时 间 段 内 的 ETL 都 运行 一 遍 即 可 。 

覆盖 加 载 只 需要 运行 最 新 一 个 时 间 周 期 的 数据 即 可 。 

累计 加 载 的 历史 数据 回溯 ， 需 要 先 初始 化 第 一 个 时 间 周 期 的 数据 ， 这 个 过 程 一 般 会 单 
独 生 成 数据 的 内 容 ; 之 后 ， 再 把 需求 的 时 间 段 内 的 所 有 ETL 按照 时 间 顺 序 运 行 一 遍 。 


8.5.4 ETL 元 数据 


前 面 的 章节 中 ， 我 们 讲 到 过 元 数据 在 数据 仓库 中 非常 重要 ， 在 ETL 的 过 程 中 ， 数 据 过 
程 和 结果 的 元 数据 正 是 元 数据 的 主要 内 容 。 
1. ETL 过 程 的 元 数据 


ETL 过 程 的 元 数据 是 指 在 抽取 、 转 换 、 加 载 的 过 程 中 任务 处 理 逻 辑 、 运 行 基本 情况 等 
的 说 明 。 具 体 如 : 

e EIL 的 逻辑 语义 描述 。 

e EIL 的 主要 数据 源 和 结果 概述 。 

e ETIL 结果 和 中 间 字 段 的 计算 方式 详 述 。 

e ETL 结果 和 中 间 字 段 的 逻辑 负责 人 、 上 游 接 口 人 。 

e ETL 在 每 个 时 间 周 期 内 的 运行 起 止 时 间 、 资 源 占用 情况 、 数 据 处 理 情况 。 


2. ETL 结果 的 元 数据 


ETL 结果 的 元 数据 是 指 加 载 到 仓库 中 的 数据 结果 的 描述 。 有 具体 如 : 

e ”数据 整体 内 容 的 逻辑 语义 描述 。 

e ”数据 整体 内 容 的 来 源 概述 。 

e 数据 在 每 个 时 间 周 期 的 数据 量 、 数 据 位 置 、 数 据 抽样 、 保 留 时 间 。 
e ”数据 在 每 个 时 间 周 期 的 数据 特性 。 

e ”数据 在 每 个 时 间 周 期 的 访问 次 数 。 

e 数据 的 各 字段 类 型 、 字 段 含义 、 是 否 大 小 写 敏 感 、 是 否 允 许 为 空 。 
e ”数据 生成 的 负责 人 。 

e 数据 的 所 有 人 。 


3. 数据 质量 的 元 数据 
如 果 组 织 内 对 数据 质量 有 比较 严格 的 要 求 ， 就 会 在 整个 数据 处 理 的 各 个 环节 增加 数据 
质量 探 针 ( 探 针 是 指 检查 数据 质量 的 小 部 件 )。 则 对 于 ETL 的 整个 过 程 ， 以 及 结果 数据 ， 都 
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可 以 增加 数据 质量 的 监测 ， 并 将 结果 纳入 元 数据 管理 的 范畴 。 

数据 质量 的 元 数据 ， 是 保证 需求 高 质量 完成 的 重要 环节 ， 可 以 有 效 地 避免 人 工 检查 和 
开发 测试 阶段 未 发 现 问题 引起 的 业务 误 判 。 具 体 如 : 

e ”检查 数据 是 否 有 错误 。 

e ”检查 数据 是 否 完整 。 

e ”检查 具有 业务 含义 的 一 些 关 键 指 标 是 否 符 合 预期 ， 并 通过 质量 探 针 持续 地 观察 和 





分 析 。 
可 以 看 出 ， 数 据 质 量 的 监测 ， 能 够 尽早 地 发 现 影响 业务 数据 的 问题 ， 而 不 是 等 人 工 去 
检查 ETL 结果 元 数据 的 时 候 才 发 现 。 
855 ETLIR 


当 完 成 了 数据 仓库 的 设计 , 了解 了 ETL 的 含义 和 需要 做 的 工作 概貌 后 , 就 需要 完成 ETL 
过 程 了 。ETL 对 于 大 多 数组 织 的 仓库 建设 来 说 ， 都 是 具有 一 定 工程 量 的 工作 。 

由 于 对 于 相同 类 别 数据 的 访问 具备 一 定 的 相似 性 ， 而 且 数据 仓库 的 架构 又 具有 统一 性 ， 
这 时 候 ， 如 果 有 一 个 很 好 用 的 ETL 工具 ， 则 可 以 避免 过 多 的 重复 性 的 编码 工作 。 

最 常见 的 ETL 工具 是 通过 配置 项 来 完成 ETL 过 程 的 ， 比 如 配置 数据 源 、 配 置 需要 的 字 
段 、 配 置 转换 过 程 、 配 置 加 载 位 置 ， 之 后 ， 再 配置 运行 规则 ， 这 个 时 候 ， 一 个 ETL 任务 就 
开发 完成 了 。 

未 来 ， 如 果 有 ETL 工具 的 升级 ， 则 可 以 兼容 先前 的 配置 规则 ， 或 者 批量 修改 配置 ， 都 
不 需要 单个 ETL 任务 去 处 理 。 

还 有 一 种 更 高 端的 ETL 工具， 是 在 可 视 化 界面 中 完成 上 面 所 述 的 所 有 配置 ， 看 起 来 会 
更 简单 明了 ， 而 且 相 关 的 工作 还 可 以 交 给 非 ETL 工程 师 的 人 来 辅助 ， 一 起 推进 工作 更 快 地 
完成 。 一 般 来 说 ， 这 种 ETL 工具 都 会 与 后 面 所 介绍 的 调度 在 同一 个 平台 上 提供 支持 。 

对 于 没有 类 似 基础 设施 的 组 织 ， 可 以 根据 组 织 的 情况 ， 选 择 购买 成 熟 的 解决 方案 ,或 
者 调研 开源 方案 ， 并 做 个 性 化 的 增 量 开发 来 解决 (由 于 相关 的 产品 和 开源 框架 都 非常 多 ， 而 
且 技 术 更 新 很 快 ， 本 书 暂 不 提供 详细 的 推荐 ， 避 免 误 导读 者 )。 


8.6 ”调度 和 运行 


调度 这 个 词汇 ， 通 常会 出 现在 大 批量 运行 时 的 管理 场景 ， 比 如 出 租车 调度 ， 意 思 是 管 
理 和 支配 成 千 上 万 辆 出 租车 的 位 置 和 接送 人 信息 ， 以 便于 使 出 租车 能 更 快 地 响应 更 多 人 的 
出 行 需求 。 

在 数据 仓库 中 ，70% 的 工作 是 ETL， 我 们 这 里 所 讲 的 调度 ， 就 是 ETL 任务 的 调度 。 设 
想 一 下 : 如 果 有 20 个 大 的 需求 类 别 ， 每 个 需求 可 以 细 分 为 5 类 有 关联 的 数据 ， 每 类 数据 需 
要 10-20 个 不 等 的 ETL 任务 ， 这 些 任务 需要 按照 它们 的 要 求 运 行 起 来 ， 这 个 时 候 ， 就 有 上 
千 个 任务 需要 管理 ， 已 经 远 远 超出 个 人 手工 操作 的 范畴 (而 这 个 例子 只 是 一 个 很 基础 的 数据 
仓库 ， 复 杂 的 会 更 多 )。 因 此 ， 我 们 需要 一 个 统管 全 局 的 调度 。 
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8.6.1 调度 怎么 工作 
对 于 一 个 ETL 任务 来 说 ， 要 完成 它 的 历史 使 命 ， 需 要 有 如 下 几 个 阶段 任务 生成 一 接 


受 调度 一 运行 一 完成 。 
因此 ， 除 了 调度 外 ， 还 需要 有 一 个 运行 的 功能 。 对 于 任务 调度 和 运行 系统 来 说 ， 它 的 
输入 是 外 部 给 予 的 ETL 任务 ， 完 成 调度 运行 后 ， 输 出 的 是 运行 结果 。 

如 果 把 调度 和 执行 分 开 来 看 ， 任 务 是 由 调度 逻辑 调 起 ， 然 后 交 给 执行 机 器 去 运行 的 。 
当然 ， 它 们 之 间 也 会 有 任务 状态 的 更 新 ， 如 图 8-18 所 示 。ETL 的 任务 ， 就 是 数据 仓库 三 个 
层次 中 很 多 的 数据 操作 步 又 的 集合 。 








| ETL 任 务 


LE 





图 8-18 调度 的 工作 方式 


在 一 个 ETL 任务 的 生命 周期 中 ， 一 般 会 存在 多 种 状态 ， 它 们 之 间 的 流转 关系 如 图 8-19 
所 示 。 





图 8-19 ETL 任务 的 生命 周期 状态 图 


依赖 等 待 : ETL 任务 刚刚 生成 ， 需 要 等 待 这 个 任务 的 上 游 依 赖 就 绪 。 
就 绪 : ETL 任务 的 上 游 都 已 经 就 绪 ， 等 待 运行 资源 。 
ZIT: 运行 资源 就 绪 ，ETL 任务 已 经 开始 跑 起 来 了 。 
成 功 : ETL 任务 运行 完毕 ， 正 常 结束 ， 没 有 出 错 。 
失败 : ELT 任务 运行 中 途 出 错 。 
e "s 在 运行 或 者 等 待 过 程 中 的 任务 ， 可 以 手工 中 止 运行 ， 任 务 变 为 失效 状态 。 
可 以 看 到 ， 对 于 调度 程序 来 说 ， 一 方面 要 将 任务 按照 既定 的 规则 交 给 执行 器 去 做 ， 另 
一 方面 ， 需 要 保持 每 个 任务 的 状态 ， 并 根据 任务 运行 状况 来 更 新 任务 状态 。 因 此 ， 调 度 程 
序 是 一 个 守护 进程 (或 者 叫 后台 进 程 )， 它 的 伪 代码 如 下 : 


eoe ooo 
[; 
> 
D 
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while (true): 
if (需要 生成 
ise EREA “依赖 等 待 ” 
if (有 任务 完 
为 完成 ”或 者 “失败 ” 
if (有 用 户 手 工 中 止 要 求 ) : 
中 止 任务 运行 && 标 记 为 “失效 ” 
if (有 “依赖 等 待 ”任务 && 上 游 已 经 “完成 ”) : 
标记 任务 为 “就 绪 ” 
if (有 “就 绪 ” 任 务 && 有 空闲 资源 ) : 
把 任务 交 给 执行 器 去 运行 && 标 记 任务 为 “运行 ” 
实际 的 生产 环境 中 ， 调 度 的 逻辑 会 比 这 里 的 伪 代 码 复杂 得 多 ,但 是 究 其 本 质 ， 无 外 平 
这 几 行 逻辑 。 为 了 满足 复杂 的 业务 需求 ， 以 及 不 断 膨胀 的 ETL 任务 列表 ， 以 及 有 限 的 资源 ， 
会 在 调度 的 基础 逻辑 上 增加 很 多 的 策略 ， 比 如 ETL 任务 的 类 别 、 按 照 优 先 级 调度 、 运 行 开 


始 时 间 要 求 、 任 务 的 资源 限制 等 。 


8.6.2 ”需要 考虑 的 其 他 方面 
1. 重复 执行 


对 于 一 个 可 用 的 调度 系统 ， 一 个 最 重要 的 指标 是 它 的 稳定 性 。 除 了 关注 系统 稳定 性 ， 
还 需要 关注 任务 运行 的 稳定 性 。 在 多 任务 并 发 、 资 源 占 用 率 高 、 网 络 通信 较 多 的 环境 下 ， 
任务 的 可 重复 执行 是 一 个 重要 特性 。 

一 方面 ，ETL 任务 的 设计 和 实施 需要 具备 可 重复 执行 的 特性 。 这 种 实施 是 系统 自动 化 
管理 的 需要 ， 也 对 数据 变更 后 手工 恢复 提供 了 便利 。 

另 一 方面 ， 调 度 系 统 需 要 有 任务 重复 执行 的 机 制 。 一 个 设计 较 好 的 调度 系统 ， 允 许配 
置 多 次 的 重 试 机 制 ， 在 任务 失败 之 后 重 试 指定 的 次 数 。 一 个 典型 的 例子 就 是 ， 通 过 不 断 的 
重 试 来 检查 一 份 数据 是 否 就 绪 。 


2. 任务 故障 通报 


虽然 有 了 任务 重复 执行 ， 还 是 不 可 避免 任务 出 现 各 种 各 样 的 问题 。 

典型 的 两 种 任务 故障 是 : 任务 运行 失败 、 任 务 运行 超时 。 任 务 运 行 失败 是 指 ETL 任务 
遇 到 了 非 预期 的 状况 导致 异常 结束 ;任务 运行 超时 ， 是 指 任务 一 直 在 运行 ， 超 过 了 指定 的 
时 间 长 度 还 未 完成 。 对 于 任务 运行 超时 ， 一 般 的 调度 系统 会 允许 设置 两 种 处 理 方案 : 允许 
其 继续 运行 ， 或 者 系统 直接 将 任务 中 止 掉 。 其 中 ， 第 一 种 方案 一 般 是 经 过 谨慎 评估 之 后 才 
允许 使 用 的 。 

对 于 出 现 的 任务 故障 ， 一 般 会 通过 多 种 方式 来 通报 给 任务 负责 人 。 常 见 的 有 邮件 、 短 
信 、 电 话 等 。 一 种 较 好 的 实现 方案 ， 是 既 兼 顾 使 用 的 方便 性 ， 又 能 兼顾 特殊 任务 管理 的 易 
用 性 ， 具 体 的 任务 故障 通报 方案 依据 业务 需求 来 实现 。 

相关 的 负责 人 在 收 到 任务 故障 的 通报 后 ， 需 要 根据 业务 要 求 以 及 既定 的 流程 来 做 相关 
的 操作 和 恢复 工作 。 


3. 系统 恢复 


除了 对 ETL 任务 的 故障 通报 ， 调 度 系统 也 可 能 会 遇 到 网 络 拥塞 、 机 器 故障 等 问题 ， 还 
有 可 能 遇 到 系统 升级 、 网 络 迁移 等 预期 中 的 事件 。 调 度 系统 本 身 的 恢复 也 十 分 重要 。 这 里 ， 
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我 们 讨论 的 一 个 前 提 ， 是 每 个 任务 的 状态 已 经 有 记录 并 可 恢复 。 

一 种 最 简单 的 方案 ， 是 时 间 点 机 制 。 调 度 系 统 在 文件 中 或 者 数据 库 中 记录 了 最 新 完成 
了 调度 任务 的 时 间 点 ， 待 系统 恢复 后 ， 可 以 直接 从 这 个 时 间 点 之 后 来 恢复 系统 状态 。 但 这 
种 方案 过 于 简单 ， 对 于 较 复杂 的 机 制 的 系统 恢复 难以 满足 。 

另 一 种 方案 是 快照 机 制 。 调 度 系统 会 在 文件 中 或 者 数据 库 中 记录 当前 系统 运行 的 快照 ， 
待 系统 恢复 的 时 候 ， 会 读 取 快 照 ， 并 尝试 恢复 所 有 的 运行 时 状态 。 使 用 这 种 方案 的 时 候 ， 
务必 使 快照 安排 在 很 好 的 保护 之 后 ， 因 为 在 系统 恢复 的 时 候 一 定 要 有 。 
当然 ， 经 过 很 好 设计 的 调度 系统 ， 还 可 以 把 更 强大 的 恢复 功能 放 入 另外 的 可 靠 架 构 中 。 


8.6.3 简易 调度 示例 


上 面 说 过 了 较 多 的 调度 的 设计 原则 ， 下 面 我 们 将 会 给 出 一 个 非常 简单 的 调度 系统 的 设 
计 示 例 。 

假设 我 们 有 10 个 任务 ， 每 个 任务 都 是 从 HDFS 上 的 数据 做 数据 处 理 ， 任 务 的 详细 内 容 
就 是 执行 一 条 命令 ， 类 似 : hadoopfs -cat SHDFSPATH | awk“$SYOURCMD*， 所 有 的 任务 都 
是 每 天 运行 一 次 ， 任 务 之 前 有 依赖 关系 。 

在 这 样 的 简单 示例 中 ， 我 们 给 出 如 图 8-20 所 示 的 精简 调度 系统 设计 。 



















P id INT 
job id INT 






? id INT 
à job. id INT » job name VARCHAR(45) » schedule time DATETIME 


à parent job id INT » command VARCHAR(45) » status INT 
pu ——IIDEI » owner VARCHAR(45) » start time DATETIME 
> end time DATETIME 

| 



















8-20 简洁 的 调度 ERD 


就 如 同 程序 和 进程 , 程序 是 固定 的 , 程序 的 一 次 运行 就 是 一 个 进程 。 在 调度 系统 中 , job 
和 task 关系 也 是 类 似 的 , job 是 一 个 ETL 任务 的 配置 , task 是 这 个 job 的 一 次 运行 。 从 图 8-20 
中 可 以 看 到 ， 每 个 task 都 是 job 在 某 一 个 schedule time 的 实例 。 

job 之 间 的 依赖 是 通过 job dependency 来 存放 的 , 其 中 的 job id 和 parent job id 都 是 外 
键 指向 job 表 的 id。 

有 了 这 三 张 调 度 信息 的 存储 表 ， 读 者 就 可 以 根据 上 文中 调度 的 伪 代 码 来 完成 一 个 简单 
的 调度 系统 了 (注意 ， 读 者 实现 的 时 候 可 以 直接 把 本 机 当 作 执行 机 )。 当 然 ， 如 果 要 真正 用 于 
生产 环境 的 话 ， 还 需要 对 这 个 调度 系统 做 很 多 改造 。 


8.7 ”数据 仓库 的 架构 


前 面 已 经 讲解 了 多 个 数据 仓库 按照 主题 来 划分 ， 讲 解 了 数据 仓库 和 数据 集 市 的 关系 ， 
讲解 了 数据 仓库 的 三 层 结构 ， 也 讲解 了 ETL 的 概念 ， 以 及 落实 到 工程 实施 后 的 ETL 任务 可 
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以 在 调度 中 运行 起 来 。 本 节 给 出 一 个 数据 仓库 整体 架构 的 示例 ， 如 图 8-21 所 示 。 读 者 可 以 
感受 一 下 数据 处 理 的 整体 架构 。 
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8-21 ”数据 仓库 架构 示例 


首先 ， 可 以 看 到 架构 中 有 四 个 层次 ， 最 底层 的 数据 源 是 数据 仓库 的 输入 ， 最 上 层 的 业 
务 应 用 是 数据 仓库 的 输出 。 其 中 ， 数 据 源 包 括 线 上 系统 的 日 志 、 业 务 系统 的 后 台数 据 、 外 
部 数据 、 主 数据 、 疏 虫 数据 等 。 上 层 的 业务 应 用 比较 广泛 ， 例 如 报表 平台 、 分 析 自 动 化 平 
台 、BI 平台 、 核 心 指标 监控 平台 、 复 杂 业 务 管 理 平台 等 。 从 输入 和 输出 我 们 可 以 看 出 ， 数 
据 仓库 对 接 的 数据 源 是 多 种 多 样 的 系统 和 数据 内 容 ， 数 据 仓库 上 提供 支持 的 应 用 更 是 有 多 
种 多 样 的 类 型 ， 基 本 上 ， 和 需要 用 到 大 量 数据 的 地 方 都 会 使 用 数据 仓库 的 数据 。 

中 间 两 个 层次 是 数据 获取 层 和 数据 仓库 层 ， 以 及 右 侧 的 仓库 相关 的 公共 工具 ， 这 三 个 
部 分 是 一 个 有 机 的 整体 ， 缺 一 不 可 。 从 广义 上 来 讲 ， 这 三 个 部 分 都 属于 数据 仓库 的 范畴 ， 
如 果 单 从 数据 仓库 呈现 给 用 户 的 数据 内 容 上 来 看 ， 就 是 我 们 标注 了 的 狭义 的 数据 仓库 的 部 
分 。 狭 义 的 数据 仓库 就 是 我 们 前 面 章节 讲 过 的 三 个 层次 。 其 中 ， 明 细 数 据 是 通过 多 种 多 样 
的 数据 获取 工具 从 数据 源 获 取 到 的 原始 数据 。 而 右 侧 的 工具 是 对 数据 仓库 的 元 数据 、 数 据 
质量 、 数 据 流 和 调度 相关 工作 的 管理 ， 是 贯穿 整个 数据 仓库 建设 始终 的 。 


8.8 数据 仓库 的 展望 


8.8.1 数据 仓库 发 展 的 阶段 性 

1. 用 脚本 看 数据 

在 组 织 业 务 发 展 的 初期 ， 或 者 新 业务 刚刚 发 展 的 时 候 ， 系 统 数 据 量 非常 小 ， 数 据 周 期 
性 变化 也 很 小 ， 通 过 单 台 机 器 足以 满足 看 数据 的 需求 。 这 个 时 候 ， 通 常 对 于 有 限 的 几 类 看 
数据 需求 ， 通 过 运行 脚本 来 看 数据 就 可 以 满足 需求 。 

常见 的 使 用 方式 是 在 Crontab 中 配置 一 个 定时 运行 任务 (如 Shell. Python, Perl 等 ) 来 提 
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取 需 要 看 的 数据 ， 通 常会 伴随 着 以 邮件 发 送 数据 结果 。 

2. 从 系统 看 数据 

随 着 业务 的 发 展 ， 通 过 脚本 看 数据 的 方式 已 经 不 能 满足 业务 上 的 需求 ， 表 现 为 : 数据 
量 膨 胀 很 快 ， 单 台 机 器 无 法 处 理 大 量 的 数据 ;业务 需求 变 多 ， 脚 本 的 方式 会 带 来 相互 引用 、 
数据 交叉 等 管理 复杂 的 问题 。 

这 时 ， 一 般 需 要 有 有 具备 一 定 抽象 程度 的 数据 平台 。 这 个 数据 平台 需要 具备 一 定 的 可 扩 
展 性， 能 方便 地 完成 处 理 数据 需求 的 工作 ， 需 要 具有 脚本 处 理 的 易 用 性 和 批量 管理 的 规范 
性 ， 一 般 会 根据 业务 情况 的 不 同 给 予 不 同 的 方案 。 

这 个 阶段 中 ， 相 比 于 用 脚本 看 数据 ， 会 极 大 地 缩短 需求 开发 的 时 间 ， 极 大 地 方便 了 用 
户 查看 数据 的 过 程 。 但 是 ， 这 个 阶段 对 于 数据 内 容 是 朴 于 管理 的 ， 人 们 只 会 关注 统计 结果 
的 数字 。 

同时 ， 这 个 阶段 的 数据 源 不 会 过 于 复杂 ， 数 据 仓库 上 面 的 业务 应 用 也 会 相对 比较 简单 ， 
大 部 分 都 是 具有 报表 展示 和 某 种 获取 数据 的 方式 就 够 了 。 


3. 数据 集 市 建设 


在 进入 从 系统 看 数据 的 阶段 中 后 期 ， 一 般 会 频繁 地 发 生 一 些 数据 内 容 上 的 事故 ， 例 如 
数据 统计 错误 、 数 据 口 径 不 统一 导致 汇总 结果 不 一 致 、 数 据 丢 失 等 。 这 个 时 候 ， 就 迫切 需 
要 从 数据 内 容 的 角度 来 做 一 个 简洁 的 数据 集 市 了 。 

通过 对 数据 来 源 、 数 据 内 容 等 的 梳理 ， 以 及 相关 工作 的 规范 化 ， 形 成 一 个 组 织 内 认可 
的 ， 有 专人 维护 的 数据 集 市 ， 任 何 想 要 取得 可 信 数 据 的 人 ， 都 可 以 自助 或 者 通过 接口 人 ， 
来 从 数据 集 市 获取 理想 的 数据 。 

这 个 时 候 ， 数 据 仓库 上 面 的 业务 应 用 也 开始 慢 慢 变 得 丰富 起 来 ， 除 了 基础 的 报表 和 取 
数 ， 可 能 会 有 更 贴近 业务 发 展 水 平 的 工具 集 和 分 析 示 例 展现 出 来 。 


4. 数据 仓库 建设 


在 数据 集 市 刚刚 建立 的 初期 ， 极 大 地 方便 了 组 织 内 的 数据 工作 ， 但 是 慢 慢 地 ， 又 会 出 
现 新 的 问题 ， 由 于 没有 经 过 规范 的 数据 仓库 建设 ， 也 没有 仓库 建设 相关 的 工具 支持 ， 对 数 
据 质量 的 控制 不 够 等 。 此 时 的 表现 ， 一 般 是 数据 集 市 团队 的 人 员 疲 于 应 付 ， 已 经 无 法 承担 
起 大 量 的 数据 需求 ， 数 据 的 增长 速度 和 管理 水 平 也 不 匹配 ， 导 致 各 项 工作 处 在 一 片 混乱 中 。 

这 时 ， 更 强大 、 更 规范 的 数据 仓库 建设 就 势 在 必 行 了 。 一 方面 ， 需 要 从 头 梳理 数据 的 
来 龙 去 脉 ， 另 一 方面 ， 也 需要 搭建 元 数据 管理 、 数 据 质量 流程 、ETL 开发 工具 和 规范 等 一 
系列 的 工具 和 和 平台。 同时， 把 组 织 内 的 数据 作为 数据 资产 ， 了 予以 保护 和 管理 。 很 多 组 织 的 
数据 部 门 也 正 是 在 这 个 时 候 开 始 大 发 展 的 。 

等 这 一 整套 工具 平台 、 流 程 规范 都 已 经 就 绪 后 ， 相 应 的 业务 需求 也 会 如 雨后春笋 般 地 
涌现 出 来 ， 各 种 业务 形态 也 迫切 地 需要 相关 的 数据 支持 。 如 果 组 织 内 的 主流 业务 线 比较 单 
一 ， 或 者 组 织 的 规模 没有 迅速 扩张 ， 单 一 数据 仓库 的 状态 是 基本 够 用 的 。 


5. 大 型 数据 仓库 集 
随 着 组 织 规模 的 壮大 ， 或 者 业务 逻辑 的 复杂 化 和 业务 线 的 拆 分 ， 大 型 组 织 内 的 唯一 的 
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一 套数 据 仓库 架构 和 支撑 体系 就 没有 办 法 满足 飞速 增长 的 业务 需求 了 。 

这 个 时 候 ， 除 了 一 套数 据 仓库 架构 外 ， 对 于 每 条 业务 线 ， 还 需要 个 性 化 的 数据 仓库 / 集 
市 的 支持 。 如 果 业 务 线 划 分 越 来 越 分 散 ， 可 能 会 出 现 多 中 心 数 据 仓库 的 情况 ， 这 就 形成 了 
数据 仓库 集 。 当 然 ， 更 大 规模 的 异地 组 织 ， 或 者 没有 交互 的 业务 线 之 间 ， 很 可 能 会 形成 毫 
无 关联 的 数据 仓库 集 。 

这 个 阶段 ， 数 据 仓库 上 层 的 数据 产品 会 异常 丰富 ， 除 了 传统 大 数据 架构 系列 的 数据 产 
品 、BI 产 品 外 ， 很 多 业务 线 的 业务 产品 都 会 出 现 数据 仓库 的 数据 供应 的 痕迹 。 做 得 更 好 的 
设置 能 将 数据 转化 为 生产 力 ， 对 内 驱动 思想 ， 对 外 变现 。 

上 面 几 个 阶段 ， 是 数据 仓库 发 展 一 般 都 要 经 历 的 中 间 形 态 ， 也 有 一 些 组 织 会 由 于 业务 
发 展 的 急 缓和 特点 ， 而 跳 过 其 中 一 个 或 者 几 个 阶段 。 但 是 ， 综 合 来 说 ， 需 要 具有 极 强 业 务 
理解 能 力 和 数据 仓库 架构 能 力 的 架构 师 ， 来 把 握 数据 介入 业务 的 深度 和 范畴 ， 从 而 既 不 会 
因为 数据 发 展 缓慢 拖累 了 业务 的 进度 ， 又 不 会 因为 数据 发 展 超前 而 压 垮 了 业务 (大量 的 数据 
仓库 及 周边 设施 投入 的 开销 会 非常 大 ， 过 早 投入 会 占用 组 织 内 过 多 的 资源 ， 可 能 会 导致 复 
杂 的 管理 问题 等 ) 。 


8.82 ”未 来 的 数据 仓库 


数据 仓库 是 最 近 5~10 年 兴起 的 一 个 新 领域 ， 即 使 追溯 相关 理论 ， 也 不 超过 20 年 。 但 
是 ， 各 大 传统 行业 的 数据 服务 提供 商 ， 以 及 各 大 互联 网 公司 ， 都 在 数据 方向 耗费 了 巨 资 
来 做 研究 ， 和 进行 生产 投入 。 

虽然 目前 还 有 非常 多 的 组 织 去 自主 搭建 数据 仓库 相关 的 基础 设施 ， 但 我 们 惊喜 地 发 现 ， 
越 来 越 多 的 大 公司 和 创业 者 ， 都 在 想方设法 将 数据 仓库 相关 的 工作 变 得 非常 容易 和 轻 量 级 。 

相信 用 不 了 几 年 的 时 间 ， 一 方面 ， 高 校 和 社会 机 构 会 将 大 数据 的 教育 作为 一 类 常见 的 
工作 开展 下 去 ， 稳 定 、 高 质量 地 向 社会 输送 数据 仓库 人 才 ; 另 一 方面 ， 数 据 仓库 的 基础 设 
施 会 变 得 像 我 们 打开 操作 系统 一 样 ， 变 得 易于 掌控 和 使 用 。 

然而 ， 对 于 数据 仓库 基础 知识 和 架构 的 理解 ， 仍 旧 是 时 代 对 高 精 尖 技术 人 才 的 要 求 。 























89 小 结 


本 章 首先 讲解 了 数据 仓库 的 由 来 和 特性 ， 以 及 数据 仓库 相关 的 概念 ， 之 后 ， 带 领 读 者 
熟悉 了 ETL 和 调度 相关 的 工作 ， 最 后 ， 通 过 梳理 ， 给 出 了 一 个 常见 的 数据 仓库 架构 图 ， 并 
提供 了 组 织 内 数据 仓库 发 展 的 阶段 性 ， 并 设想 了 未 来 数据 仓库 基础 设施 建设 的 愿景 。 

通过 本 章 的 学 习 ， 希 望 读者 对 数据 仓库 能 有 最 基本 的 认识 ， 并 能 说 清 数据 仓库 相关 概 
念 的 含义 和 区 别 ， 能 够 理解 三 层 架 构 ， 并 能 基于 本 章 给 出 的 一 些小 例子 ， 自 己 搭建 一 套 简 
单 的 自 下 而 上 的 数据 仓库 系统 。 
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Hive | 


ESE 
本 章 带领 读者 一 起 认识 Hive, 首先 了 解 Hive 是 什么 , 如 何 安 装 和 配置 ， 
然后 介绍 常见 的 Hive 命令 行 接口 以 及 常见 的 Hive 操作 ; 然后 会 介绍 Hive 
的 自 定义 函数 以 及 Hive 的 一 些 高 级 使 用 ， 最 后 会 给 出 Hive 的 编程 示例 。 
通过 本 章 的 学 习 ， 读 者 应 能 够 了 解 分 布 式 数据 仓库 Hive， 能 够 掌握 其 
基本 配置 和 使 用 。 


本 章 要 点 


什么 是 Hive， 及 其 用 途 

Linux 下 Hive 的 搭建 

Hive 下 编写 自 定义 函数 

了 解 Hive 视图 、 索 引 以 及 常见 的 优化 
Hive 编程 接口 


eg] A miis 
92 


9.4 初 识 Hive 


分 布 式 文件 系统 是 支撑 海量 数据 存储 和 运算 的 基础 架构 ， 那 么 ， 支 撑 数据 仓库 的 基础 
架构 是 什么 样 的 呢 ? 
Hive 是 各 大 企业 中 最 常见 的 基础 架构 ， 本 节 带 领 读者 一 起 来 认识 一 下 Hive 的 概貌 。 


9.1.1 Hive 是 什么 


Hive 也 是 Apache 基金 会 下 面 的 开源 框架 ， 是 基于 Hadoop 的 数据 仓库 工具 ， 它 可 以 把 
结构 化 的 数据 文件 映射 为 一 张 数 据 仓 库 表 ， 并 提供 简单 的 SQL(Structured Query Language) 
查询 功能 ， 后 台 将 SQL 语句 转换 为 MapReduce 任务 来 运行 。 

Hive 和 HBase 是 两 种 基于 Hadoop 的 不 同 技术 一 一 Hive 是 一 种 类 SQL 的 引擎 ,并 且 运 
行 MapReduce 任务 ，HBase 是 一 种 在 Hadoop 之 上 的 NoSQL 的 Key/Value 数据 库 。 

Hive 在 英文 中 的 意思 是 蜂箱 、 蜂 梨 、 储 备 、 积 累 的 意思 ， 正 与 数据 仓库 容纳 海量 有 价 
值 的 数据 的 含义 相仿 。 图 9-1 是 Hive 的 形象 化 标志 ， 看 起 来 像 一 只 飞 起 的 蜜蜂 ， 但 有 大 象 
的 头 ， 表 明 与 Hadoop 是 一 家 ， 是 基于 Hadoop 的 数据 仓库 。 


NS 
IVE 


9-1 Hive 的 标志 


对 于 用 惯 了 传统 数据 库 (比如 MySQL、Oracle) 的 人 来 说 ， 由 于 对 传统 的 SQL 非常 了 解 ， 
在 开始 使 用 HiveSQL 的 时 候 , 上 手 会 比较 快 , 因为 它们 与 基础 的 SQL 结构 是 类 似 的 ; 当然， 
HiveSQL 为 分 布 式 计算 做 了 一 些 优化 ， 后 面 的 章节 会 详细 地 带领 读者 去 实践 。 这 也 正 是 我 
们 理解 Hadoop 原理 、 理 解 Hive 原理 的 目的 。 只 有 理解 了 这 些 东 西 ， 我 们 才能 很 好 地 把 它 
们 用 起 来 。 

由 于 Hive 查询 使 用 的 是 Hadoop 的 MapReduce 作业 ， 所 以 大 部 分 查询 过 程 都 是 一 个 批 
量 操作 的 过 程 ， 因 此 与 MapReduce 一 样 ， 会 是 高 延迟 的 ， 所 以 Hive 不 适合 那些 低 延 迟 的 应 
用 。 同 时 ，Hive 也 不 支持 对 已 有 数据 的 修改 和 追加 。 


9.1.2 Hive 的 部 署 


为 了 让 读者 能 更 快 地 对 Hive 有 直观 的 认识 ， 我 们 现在 来 部 署 一 套 Hive. 
Hive 的 官网 位 置 是 :http:/hive.apache.org/, 读 者 可 以 从 里 面 的 Downloads 部 分 找到 Hive 
的 一 个 发 布 的 版 本 。 本 章 以 Hive 1.2.1 为 例 ， 讲 解 Hive 的 配置 ， 以 完成 后 续 的 实践 。 
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1. 前 期 准备 


确保 你 要 使 用 的 Hive 机 器 上 已 经 部 署 好 了 Hadoop 客户 端 ， 并 配置 好 了 环境 变量 ， 可 
以 使 用 如 下 命令 来 检查 : 


[work@localhost usr]$ hadoop version 

Hadoop 2.6.0 

Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 
e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1 

Compiled by jenkins on 2014-11-13T21:10Z 

Compiled with protoc 2.5.0 

From source with checksum 18e43357c8f927c0695f1e9522859d6a 

This command was run using 
/usr/hadoop-2.6.0/share/hadoop/common/hadoop-common-2.6.0.jar 


2. 下 载 文件 

访问 Hive 官网 , 选择 下 载 1.2.1 版 本 的 Hive, 我 们 这 里 选择 apache-hive-1.2.1-bin.tar.gz; 
如 果 选 择 src 的 压缩 包 ， 则 下 载 的 是 源码 ， 需 要 自己 编译 。 将 下 载 好 的 文件 放 入 你 想 要 使 用 
Hive 的 机 器 的 /usr 目录 下 (或 者 直接 在 Linux 环境 下 下 载 这 个 压缩 包 ): 


[work@localhost usr]$ cd /usr 
[work@localhost usr]$ tar -zxf apache-hive-1.2.1-bin.tar.gz 


3. 修改 环境 变量 


编辑 用 户主 目录 下 面 的 .bashrc 隐藏 文件 , 在 export HADOOP HOME 的 后 面 增加 export 
PATH 的 行 。 保 存 之 后 退出 ， 然 后 执行 source: 
(1) 编辑 用 户主 目录 下 面 的 .bashrc 隐藏 文件 : 


[work@localhost usr]$ vi -/.bashrc 


(2) 在 export HADOOP. HOME 后 面 增加 及 修改 : 


export HIVE HOME-/usr/apache-hive-1.2.1-bin 
export PATH-$JAVA HOME/bin:$HADOOP HOME/bin:$HIVE HOME/bin:$PATH 
[workélocalhost hadoop-2.6.0]$ source -/.bashrc 


这 个 命令 只 需要 执行 一 次 ， 以 后 每 次 登录 系统 之 后 ， 后 台 会 自动 执行 。 
4. 修改 配置 文件 
执行 下 列 命令 : 


[workélocalhost usr]$ cd /usr/apache-hive-1.2.1-bin/conf/ 
[work@localhost usr]$ mv hive-env.sh.template hive-env.sh 
[workGélocalhost usr]$ mv hive-default.xml.template hive-site.xml 
[workélocalhost usr]$ vi /usr/apache-hive-1.2.1-bin/bin/hive-config.sh 


在 文件 最 后 增加 如 下 三 行 : 


export JAVA HOME-/usr/jdkl.7.0 45 
export HIVE HOME-/usr/hadoop-2.6.0 
export HADOOP HOME-/usr/apache-hive-1.2.1-bin 


保存 后 退出 。 





Rl 从 基础 理论 到 最 佳 实践 


5. 启动 Hive 
注意 ， 在 启动 Hive 之 前 ， 需 要 确保 Hadoop 是 正常 运行 的 : 


[work@localhost usr]$ cd /usr/apache-hive-1.2.1-bin/ 
[work@localhost usr]$ cd /usr/bin/hive 

Logging initialized using configuration in 
jar:file:/usr/apache-hive-1.2.1-bin/lib/hive-common-1.2.1.jar!/ 
hive-10g4j.properties 

hive» show databases; 

OK 

default 

Time taken: 1.42 seconds, Fetched: 1 row(s) 

hive> create table mytest (id int, name string); 

OK 

Time taken: 0.739 seconds 

hive> desc test; 


OK 
id int 
name string 


Time taken: 0.574 seconds, Fetched: 2 row(s) 

hive> exit; 

[work@localhost usr]$ hadoop fs -ls /user/hive/warehouse/ 
Found 1 items 

drwxr-xr-x - work supergroup 0 2016-02-24 21:26 
/user/hive/warehouse/mytest 


可 以 看 到 , 我 们 在 Hive 里 面 使 用 了 默认 的 default 库 , 新 建 了 一 张 mytest 的 表 , 在 HDFS 
上 已 经 可 以 看 到 这 个 表 的 目录 了 。 


9.1.3 以 MySQL 作为 Hive 的 元 数据 库 

元 数据 库 是 存储 Hive 里 面 数据 元 信息 的 地 方 ， 默 认 情 况 下 ，Hive SEH A HHI Derby 
数据 库 作 为 存储 引擎 。Derby 引擎 一 次 只 能 打开 一 个 会 话 ， 如 果 切 换 为 使 用 MySQL 作为 外 
置 存储 引擎 ， 可 以 支持 多 个 用 户 同时 访问 。 


1. 创建 MySQL 中 的 Hive 库 
操作 如 下 : 


[work@localhost usr]$ mysql -hlocalhost -uroot -p 

mysql» create database hive; 

mysql» GRANT all ON hive.* TO root6'$' IDENTIFIED BY 'admin'; 
mysql» flush privileges; 


2. 修改 Hive 的 配置 


这 里 从 https://dev.mysql.com/downloads/connector/j/ F 3X; mysql-connector-java 的 压缩 包 ， 
并 解压 出 JAR 包 ， 放 在 /usr/apache-hive-1.2.1-bin/lib 下 面 。 之 后 修改 配置 文件 : 


[work@localhost usr]$ vi /usr/apache-hive-1.2.1-bin/conf/hive-site.xml 
<property> 
<name>javax.jdo.option.ConnectionURL</name> 
<value> 
jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true 
</value> 
</property> 
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<property> 
<name>javax.jdo.option.ConnectionDriverName</name> 
<value>com.mysql.jdbc.Driver</value> 

</property> 

<property> 
<name>javax.jdo.option.ConnectionUserName</name> 
<value>root</value> 

</property> 

<property> 
<name>javax.jdo.option.ConnectionPassword</name> 
<value>admin</value> 

</property> 


上 面 的 配置 是 假设 使 用 root 访问 localhost 的 MySQL， 如 果 你 的 MySQL 访问 串 不 同 ， 
可 修改 上 面 配 置 中 的 内 容 。 

修改 后 ， 仍 旧 按照 上 面 所 述 的 方法 访问 Hive, Hive 会 在 配置 文件 中 指定 的 MySQL 串 
对 应 的 库 中 建立 所 有 元 数据 的 表 。 比 如 按 上 面 所 述 ， 如 果 我 们 使 用 root 访问 localhost 的 
MySQL 库 ， 就 可 以 看 到 如 下 这 些 表 : 

mysql» show tables; 


4-------------------------- * 
| Tables in hive metastore | 
4-------------------------- * 

BUCKETING COLS 

CDS F 

COLUMNS_V2 


| 

| 

| Ej 

| COMPACTION QUEUE 

| COMPLETED TXN COMPONENTS 
| DATABASE PARAMS 

| DBS I 

| DB PRIVS 

| DELEGATION TOKENS 

| FUNCS B 

| FUNC RU 

| GLOBAL PRIVS 

| HIVE LOCKS 

| IDXS 

| INDEX PARAMS 

| MASTER KEYS 

| NEXT COMPACTION QUEUE ID 
| NEXT LOCK ID 

| NEXT TXN ID 

| NUCLEUS TABLES 

| PARTITIONS 

| PARTITION EVENTS 

| PARTITION KEYS 

| PARTITION KEY VALS 

| PARTITION PARAMS 

| PART COL PRIVS 

| PART COL STATS 

| PART PRIVS 

| ROLES 

| ROLE MAP 

| SDS 

| SD PARAMS 

| SEQUENCE TABLE 

| 
| 
l 


SERDES 
SERDE _ PARAMS 
SKEWED COL NAMES 
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SKEWED COL VALUE LOC MAP 
SKEWED STRING LIST 
SKEWED STRING LIST VALUES 
SKEWED VALUES 

SORT COLS 

TABLE PARAMS 

TAB COL STATS 

TBLS  — [ 
TBL COL PRIVS 
TBL PRIVS 1 
TXNS 1 
TXN_COMPONENTS [ 
| TYPES 

| TYPE FIELDS 
VERSION 








51 rows in set (0.00 sec) 


可 以 看 到 ，Hive 默认 初始 化 了 元 数据 库 。 其 中 比较 常用 的 有 如 下 这 些 表 。 

(1) VERSION: 记录 Hive 的 版 本 号 。 可 以 尝试 执行 select * from VERSION. 

(2) DBS: 记录 Hive 里 面 有 哪些 仓库 。 可 以 尝试 执行 select * from DBS 。 

(3) TBLS: 记录 Hive 中 的 所 有 表 。 可 以 尝试 执行 select * from TBLS WHERE DBS-1. 

(4) SDS: 查看 表 所 对 应 的 HDFS 目录 的 元 数据 。 可 以 尝试 执行 select * from SDS。 

(5) PARTITIONS: 查看 某 个 表 的 分 区 信息 。 可 以 尝试 执行 select * from PARTITIONS 
where TBL ID-1. 

(6 COLUMNS V2: 查看 某 表 的 某 列 信息 。 可 尝试 执行 select * from COLUMNS V2. 

(7) PARTITION KEYS: 查看 某 个 表 的 PARTITION 的 列 。 可 尝试 执行 select * from 
PARTITION KEYS. 


[aem | 
大 部 分 时 候 ， 不 需要 修改 Hive 的 元 数据 库 。 尤 其 在 使 用 Hive 初期 ， 一 定 要 慎重 


操作 元 数据 库 。 只 有 在 HDFS 底层 变动 时 (如 集群 名 称 修改 、 菜 些 分 区 无 法 恢复 等 极 特 
殊 情 况 )， 才 可 能 会 直接 修改 元 数据 库 。 














9.1.4 Hive 的 体系 结构 


Hive 是 基于 Hadoop 的 数据 仓库 框架 ，Hive 的 数据 存储 在 HDFS 中 ， 大 部 分 的 查询 、 
计算 由 MapReduce 完成 (包含 * 的 查询 ， 比 如 select * from tbl 不 会 生成 MapRedcue 任务 )。 

Hive 的 用 户 接口 主要 有 三 个 : 命令 行 ，JDBC 接口 和 Web 界面 。 

命令 行 是 最 常用 的 一 种 访问 方式 。 客 户 端 启动 命令 行 的 时 候 ， 会 连接 Hive 服务 端 所 在 
的 节点 ， 这 个 节点 会 启动 一 个 单独 的 驱动 实例 ， 驱 动 的 实例 会 将 用 户 的 命令 提交 执行 。 后 
面 会 详细 介绍 命令 行 的 使 用 。 
Hive JDBC 接口 提供 了 JDBC 驱动 给 Java 代码 ，Java 可 以 使 用 这 个 接口 来 进行 一 些 类 
似 关系 型 数据 的 SQL 语句 查询 等 操作 。 与 关系 型 数据 库 一 样 , 这 个 接口 需要 Hive 启动 一 个 
叫 作 Thrift 的 服务 。 
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Hive 也 提供 了 Web 界面 ， 用 户 可 以 通过 浏览 器 访问 Hive， 做 一 些 基础 的 操作 。 

Hive 将 元 数据 存储 在 数据 库 中 , 如 上 面 所 说 的 Derby 或 者 MySQL. Hive 中 的 元 数据 包 
括 表 的 名 字 、 表 的 列 和 分 区 及 其 属性 、 表 的 属性 (是 否 为 外 部 表 等 )、 表 的 数据 所 在 目录 等 。 

Hive 的 驱动 完成 HiveSQL 语句 从 词法 分 析 、 语 法 分 析 、 编 译 、 优 化 以 及 查询 计划 的 生 
成 的 过 程 。 生 成 的 查询 计划 存储 在 HDFS 中 ， 并 在 随后 由 MapReduce 调用 和 执行 。 

Hive 的 体系 结构 如 图 9-2 所 示 。 























9-2 Hive 的 体系 结构 


9.1.5 Web Jr Tf 


启用 这 个 Web 界面 服务 的 过 程 如 下 。 

(0 下 载 源码 。Hive 1.12.1 的 程序 包 没 有 附带 HWI 的 War 包 ， 我 们 需要 到 Hive 的 官 
WE, F Hive 源码 文件 apache-hive-1.2.1-src.tar.gz。 

Q) 打 War 包 。 解压 后 , 将 hwi/web 目录 下 的 文件 用 jar cvf hive-hwi-1.2.1.war /* 命令 
打包 成 一 个 War 包 。 

G) 放 入 lib 目录 。 把 hivehwi1.2.1.war 放 到 ${HIVE HOME}/lib 目录 下 。 

(4) 修改 配置 。 修 改 ${HIVE_ HOME Y/conf/hive-site.xml 文件 。 

(5) 启动 服务 。 启 动 hwi 的 方式 是 : $(HIVE HOMEY/bin/hive --service hwi。 

(6) 浏览 器 访问 。 启 动 之 后 ， 就 可 以 在 浏览 器 访问 “http://localhost:9999” 了 。 

访问 界面 如 图 9-3 所 示 ， 单 击 其 中 的 Browse Schema， 可 以 看 到 Database 列表 ， 只 有 
default 一 个 库 。 

单 击 其 中 的 default， 可 以 看 到 Table 列表 ， 只 有 mytest( 我 们 前 面 建立 的 表 )。 

单 击 mytest， 就 可 以 看 到 这 张 表 的 详细 描述 。 




















ec. PTT 
y» 


E 


HWI Hive Web Interface-Schema Browser - Mozilla Firefox Bg 
J HMI Hve Web Interfa.. |x | + 















€ @ localhost:9999/h Q tie + 会 | 三 
usen mytest 
ft Home ColsSze: 2 
B Anota input Format: org. apache hadoop.mapred TextInputFormat 
Output Format: org apache.hadoop.live.qLo.HivelgnoreKeyTextOutputFormat 
DATABASE is Compressed? false 





Location: hd's://localhost:9000/userhive'warehouse/mytest 
Number Of Buckets: -1 


sessons Field Schema 


£ Create Session 





Q Ust sessions Nome Tyre. Comment 
id int mul 

DiAGNoSTS 

© Dagnostics name string null 


Bucket Columns 


Sort Columns 


Column Order 


Parameters 
图 9-3 Hive 的 Web 界面 访问 





9.2 Hive 命令 行 接口 


9.2.1 启动 Hive 命令 行 


命令 行 接口 的 启动 方式 如 下 : SHIVE HOME/bin/hive 或 者 $HIVE_HOME/bin/hive 
--service cli。 可 以 通过 输入 $HIVE_HOME/bin/hive --H 来 获取 可 用 参数 的 帮助 : 
[work@localhost usr]$ hive -H 
usage: hive 
-d,--define «key-value» Variable substitution to apply to hive 


commands. e.g. -d A-B or --define A-B 
--database «databasename» Specify the database to use 


-e «quoted-query-string» SQL from command line 
-f «filename» SQL from files 
-H, --help Print help information 
--hiveconf «property-value» Use value for given property 
--hivevar «key-value» Variable substitution to apply to hive 
commands. e.g. --hivevar A-B 
-i «filename» Initialization SQL file 


-S,--silent 


Silent mode in interactive shell 
-v,--verbose 


Verbose mode (echo executed SQL to the 
console) 


这 些 命令 参数 的 具体 含义 如 下 。 

(1) -d,--define: 定义 一 个 可 以 在 Hive 命令 行 中 使 用 的 变量 。 

(2) --database: 进入 Hive 命令 行 的 时 候 指定 数据 库 ， 如 不 指定 ， 会 进入 default。 
(3) -e: 执行 一 个 SQL 语句 。 


D ——————— ———————— 
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(4) -f: 执行 flename 文件 中 的 HiveSQL 语句 。 

(5) -H, --help: 显示 帮助 信息 。 

(6) -h: 连接 hostname 指定 的 远程 Hive 服务 。 

(7) --hiveconf: 设置 Hive 命令 行 的 运行 时 配置 参数 ， 优 先 级 高 于 hive-site.xml， 但 低 
于 Hive 命令 行 中 使 用 set 命令 的 设置 。 

(8) --hivevar: 同 --define。 

(9) -i: 进入 Hive 命令 行 时 ， 先 执行 flename 中 的 HiveSQL 语句 。 

(10) -S, —silent: 静默 模式 ， 不 显示 执行 进度 ， 最 后 只 显示 结果 。 

(11) -v, --verbose: 宛 余 模式 ， 额 外 打印 出 执行 的 HiveSQL 语句 。 


9.22 ”可 用 的 命令 


在 Hive 命令 行 模式 中 ， 可 以 使 用 如 下 这 些 命令 。 

(1) quit, exit: 退出 命令 行 模式 。 

(2) reset: 重 置 所 有 Hive 运行 时 配置 参数 ， 比 如 ， 先 前 使 用 了 set 设置 的 值 ， 会 恢复 
成 hive-site.xml 中 指定 的 配置 值 。 

(3) set <key>=<value>: 设置 Hive 运行 时 配置 参数 。 

(4) setset-v: 输出 当前 的 Hive 参数 设置 。 

(5) add FILE[S]J/JAR[S]/ARCHIVE[S] <filepath>+: 向 Hive 的 分 布 式 缓存 中 添加 一 个 或 
者 多 个 文件 、JAR 包 或 者 归档 ， 添 加 后 ， 可 以 在 后 续 使 用 。 比 如 ， 自 定义 一 个 UDF 函数 ， 
打 成 JAR 包 ， 在 创建 函数 前 ， 需 要 使 用 add jar 的 方式 ， 先 将 JAR 包 添加 到 分 布 式 缓存 。 

(6) listFILE[SJJAR[SJARCHIVE[S]， 列 出 分 布 式 缓存 中 的 资源 。 

(7) list FILE[SJ/JAR[S]/ARCHIVE[S] <filepath>+: 检查 分 布 式 缓存 中 是 否 存在 资源 。 

(8) delete FILE[SJJAR[S/ARCHIVE[S]: 从 分 布 式 缓存 中 删除 指定 的 资源 。 

(9) !«command»: 在 命令 行 模式 中 执行 一 个 Linux Shell 命令 。 

(10) dfs <command>: 在 命令 行 模式 中 执行 一 个 Hadoop dfs 命令 。 

(11) query: 执行 一 个 HiveSQL。 

(12) source FILE <filepath>: 在 命令 行 模式 中 执行 filepath 指定 的 Hive 脚本 文件 。 


9.3 Hive 数据 类 型 与 常见 的 结构 


9.3.1 数据 类 型 
1. 基本 数据 类 型 
Hive 中 的 基本 数据 类 型 如 表 9-1 所 示 。 
表 9-1 Hive 的 基本 数据 类 型 











类 型 所 占 字 节 数值 范围 及 其 他 说 明 
TINYINT 1 字 节 有 符号 整数 -128-127 


SMALLINT 2 字 节 有 符号 整数 -32768-32767 








数据 
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续 表 
类 型 所 占 字 节 数值 范围 及 其 他 说 明 
INT 4 字 节 有 符号 整数 -2147483648 ~ 2147483647 
BIGINT 8 字 节 有 符号 整数 -9223372036854775808 
~ 9223372036854775807 
FLOAT 4 字 节 单 精 度 浮 点 数 
DOUBLE 8 字 节 双 精 度 浮 点 数 
DECIMAL V0.11.0 引入 了 38 位 精度 。 默认 是 DECIMAL(10, 0)， 可 以 自 定义 ， 
V0.13.0 引入 了 自 定 义 精度 并 可 扩展 如 DECIMAL(. 7) 
TIMESTAMP Hive 0.8.0 引入 
DATE Hive 0.12.0 引入 
STRING 
VARCHAR Hive 0.12.0 引入 
CHAR Hive 0.13.0 引入 
BOOLEAN 
BINARY Hive 0.8.0 引入 
2. 基本 类 型 转换 


Hive 支持 基本 类 型 的 转换 ， 低 字 节 基 本 类 型 可 转化 为 高 字 节 的 类 型 ， 例 如 TINYINT, 
SMALLINT, INT 可 以 转化 为 FLOAT。 而 所 有 的 整数 类 型 、FLOAT 以 及 STRING 类 型 可 
以 转化 为 DOUBLE 类 型 。 

这 些 转化 可 以 从 Java 语言 的 类 型 转化 考虑 ， 因 为 Hive 就 是 用 Java 编写 的 。 当 然 ， 也 
支持 高 字 节 类 型 转化 为 低 字 节 类 型 ， 这 就 需要 使 用 Hive 的 自 定义 函数 CAST 了。 

3. 复杂 类 型 

Hive 的 复杂 数据 类 型 如 表 9-2 所 示 。 
图 9-2 Hive 的 复杂 数据 类 型 








类 型 说 明 示例 和 访问 方式 
ARRAY 有 序 的 类 型 相同 的 元 素 集合 。 Armay(1, 2). Array(^abc", d") 
如 : Array<INT> 访问 方式 Array[n]， 下 标 n 从 0 开始 
MAP 无 序 的 键 值 对 。 键 的 类 型 必须 相 | Map(“abe”, 1, “d”, 人 )。 其 中 ， 逗 号 分 隔 的 元 素 分 
同 ， 值 的 类 型 也 必须 相同 。 别 为 keyl、valuel、key2、value2。 
如 : Map<STRING INT> 访问 方式 为 M[key]，key 是 Map 中 的 key 值 
STRUCT 有 名 称 的 元 素 集合 。 Struct(-John", 31) 
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如 : STRUCT<name:STRING, 
age:INT> 





访问 方式 为 Sitem，item 是 Struct 中 的 元 素 
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9.32 文件 的 存储 结构 


Hive 常见 的 存储 结构 是 TEXTFILE。 在 Hive 建 表 时 , 可 以 通过 Stored As FILE FOMAT 
来 指定 文件 存储 结构 。 比 如 Stored As TextFile. 


1. TEXTFILE 


这 是 Hive 的 默认 存储 格式 , 文件 是 以 纯 文本 的 方式 存放 在 HDFS 中 的 , 数据 不 做 压缩 ， 
磁盘 开销 比较 大 ， 数 据 解析 的 开销 也 比较 大 。 可 以 结合 Gzip、Bzip2 使 用 这 种 压缩 模式 ， 系 
统 会 自动 检查 是 否 是 压缩 文件 ， 并 在 使 用 数据 的 时 候 自动 解压 。 它 对 应 的 输入 和 输出 类 是 
org.apache.hadoop.mapred. TextInputFormat 和 org.apache .hadoop.hive.ql.io.HiveIgnoreKeyText 
OutputFormat。 使 用 方法 比较 简单 ， 比 如 我 们 在 /home/work/aaa 文件 中 存储 三 行 数据 : 


hive» CREATE TABLE testl(theStr STRING) 
» STORED AS TEXTFILE; 
OK 
Time taken: 0.434 seconds 
hive» LOAD DATA LOCAL INPATH '/home/work/aaa' INTO TABLE testl; 
Loading data to table test.testl 
Table test.testl stats: [numFiles-1, totalSize-12] 
OK 
Time taken: 1.294 seconds 
hive> select * from testl; 
OK 
111 
222 
333 
Time taken: 0.553 seconds, Fetched: 3 row(s) 


2. SEQUENCEFILE 


SEQUENCEFILE 是 Hadoop API 提供 的 一 种 二 进 制 文 件 支持 ， 它 具有 方便 、 可 分 割 、 
可 压缩 的 特点 。SEQUENCEFILE 具有 三 种 压缩 选项 : NONE. RECORD. BLOCK. 

其 中 ，RECORD 压缩 率 低 ， 一 般 建议 使 用 BLOCK 压缩。 

在 Hive 读 写 数据 时 使 用 的 是 这 两 个 类 : org.apache hadoop mapred.SequenceFileInputFormat 
和 org.apache hadoop hive.qlio HiveSequence FileOutputFormat。 使 用 方法 如 下 : 


hive» CREATE TABLE test2 (str STRING) 
> STORED AS SEQUENCEFILE; 
OK 
Time taken: 0.574 seconds 
hive» SET hive.exec.compress.output-true; 
hive» SET io.seqgfile.compression.type-BLOCK; 
hive» INSERT OVERWRITE TABLE test2 SELECT * FROM testl; 
hive» select * from test2; 
OK 
111 
222 
333 
Time taken: 0.97 seconds, Fetched: 3 row(s) 


这 个 时 候 ， 我 们 查看 HDFS 上 对 应 的 数据 ， 己 经 是 不 直接 可 读 的 文件 格式 了 。 查 看 方 
法 是 : desc formatted test2， 查 看 表 对 应 的 HDFS 目录 ， 之 后 执行 Hadoop Shell 命令 查看 。 
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SEQUENCEFILE 这 种 二 进 制 文件 ， 使 用 Hadoop 标准 的 Writable 接口 实现 序列 化 和 反 
序列 化 。Hive 中 的 SequenceFile 继承 自 Hadoop API 的 SequenceFile， 不 过 ， 它 的 key 为 空 ， 
使 用 value 存放 实际 的 值 ， 这 样 是 为 了 避免 MR 在 运行 map 阶段 的 排序 过 程 。 

这 种 文件 结构 主要 由 一 个 Header 后 跟 多 条 Record 组 成 。 其 中 ，Header 主要 包含 了 
Key-Value 对 的 类 名 、 压 缩 算法 、 用 户 自 定义 元 数据 等 信息 。Record 以 Key-Value 的 方式 进 
行 存储 ， 一 般 包含 Record 长 度 、Key 长 度 、Key 值 和 Value 值 。 如 果 数 据 有 压缩 ， 则 根据 
压缩 的 情况 ，Value 的 内 容 会 是 不 同 的 。 

3. RCFILE 

RCFILE 是 一 种 行列 存储 相 结合 的 存储 方式 。 

首先 ， 它 将 数据 按 行 分 块 ， 保 证 同一 个 record 在 一 个 块 上 ， 避 免 读 一 个 记录 时 需要 读 
取 多 个 block。 

其 次 ， 块 数据 列 式 存储 ， 有 利于 数据 压缩 和 快速 的 列 存 取 。 读 写 数据 的 类 是 
org.apache.hadoop.hive.ql.io.RCFileInputFormat 和 org.apache.hadoop hive.qlio.RCFileOutput 
Format。 它 的 使 用 方式 与 SEQUENCEFILE 类 似 : 


hive> CREATE TABLE test2(str STRING) 
> STORED AS RCFILE; 
hive» INSERT OVERWRITE TABLE test2 SELECT * FROM testl; 


4. 其 他 


Hive 还 支持 Parquest, Avro 等 其 他 格式 ， 这 里 不 再 详细 叙述 ， 感 兴趣 的 读者 可 以 搜索 
相关 资料 ， 或 者 阅读 Hive 的 源码 。 当 然 ， 我 们 也 可 以 实现 inputformat 和 outputformat 来 自 
定义 输入 输出 格式 。 

在 选择 文件 格式 的 时 候 ， 一 方面 要 考虑 文件 的 存储 空间 ， 另 一 方面 ， 要 考虑 读 取 速 度 ， 
因此 ， 要 选择 合适 的 存储 格式 和 压缩 方法 。 一 般 来 说 ， 在 企业 的 集群 里 ， 都 不 会 直接 使 用 
TEXTFILE 这 种 浪费 空间 的 方式 来 存储 ， 或 者 至 少 是 对 历史 数据 有 压缩 存储 的 方案 。 当 然 ， 
在 选择 之 前 ， 需 要 做 详细 的 数据 对 比 ， 要 使 得 空间 占用 和 任务 运行 效率 都 得 到 业务 方 和 预 
算 的 认可 。 





9.4 HiveSQL 


9.4.1. 数据 定义 语言 DDL 

1. 分 库 、 分 表 和 分 区 

我 们 知道 ， 在 传统 的 数据 库 ( 如 MySQL) 中 ， 是 有 Database 概念 的 ， 类 似 于 编程 语言 
的 命名 空间 。 它 的 作用 是 将 关联 紧密 的 表 放 在 一 个 区 域 之 内 ， 便 于 管理 。 比 如 ， 属 于 销售 
类 的 表 放 入 sales 这 个 Database 里 面 ， 属 于 用 户 相关 的 表 放 入 users 这 个 Database 里 面 。 而 
且 可 以 动态 地 增加 Database. 

在 Hive 中 ， 也 一 样 有 Database 的 概念 ， 使 用 方式 如 下 : 

一 -创建 名 称 为 databasename 的 库 
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CREATE DATABASE databasename; 

=-- 使 用 名 称 为 databasename 的 库 

USE DATABASE databasename; 

一 -删除 名 称 为 databasename 的 库 

DROP DATABASE databasename; 

与 MySQL 类似， 在 Database 里 面 可 以 建 表 ， 每 张 表 代表 不 同 含义 的 数据 集合 ， 每 张 
表 里 面 有 多 个 字段 ， 每 个 字段 对 应 上 面 章节 中 讲述 的 数据 类 型 。 

在 查询 一 张 Hive 表 的 时 候 ， 通 常会 扫描 一 整 张 表 所 有 的 内 容 ， 会 消耗 很 多 时 间 做 没 必 
要 的 工作 。 而 大 部 分 时 候 ， 我 们 只 关心 一 张 表 中 的 一 部 分 数据 ， 这 个 时 候 ， 就 可 以 使 用 分 
区 。 使 用 分 区 字段 将 一 整 张 表 的 数据 分 隔 开 来 ， 每 个 分 区 字段 可 以 有 一 个 或 者 多 个 分 区 值 ， 
Hive 实际 在 HDFS 上 存储 的 时 候 ， 会 将 数据 按照 分 区 值 的 不 同 ， 存 储 在 对 应 的 目录 下 。 同 
时 ， 我 们 对 Hive 表 中 数据 的 操作 ， 如 装载 和 删除 ， 可 以 以 一 个 最 小 分 区 为 单位 来 做 。 

注意 ， 表 名 和 分 区 名 不 区 分 大 小 写 。 


2. 建 表 
下 面 是 个 建 表 语句 的 例子 ， 顾 客 订单 表 有 5 个 字段 : 


CREATE TABLE customOrder( 
type INT COMMENT "订单 类 别 "， 
saleManId BIGINT COMMENT "售货员 id", 
customerId BIGINT COMMENT "顾客 id", 
goodId BIGINT COMMENT "商品 id", 
price DECIMAL(10,2) COMMENT "价格 " 




















) 

PARTITIONED BY (^p date^ string COMMENT "日 期 ") 
ROW FORMAT DELIMITED 

FIELDS TERMINATED BY '\t' 

LINES TERMINATED BY 'An'; 


上 面 的 建 表 语句 是 最 经 常 使 用 的 一 种 建 表 方式 ， 没 有 指定 HDFS 上 文件 存储 位 置 的 内 
部 表 ( 请 注意 ， 内 部 表 的 文件 存储 位 置 也 可 以 指定 ), 该 表 的 存储 位 置 是 默认 的 Hive 库 地 址 + 
表 地 址 ， 可 以 使 用 如 下 命令 查看 这 张 表 的 详情 : 


hive»desc formatted customOrder; 


OK 

# col name data type comment 
type int 订单 类 别 
salemanid bigint 售货员 id 
customerid bigint 顾客 id 
goodid bigint 商品 id 
Price decimal (10,2) 价格 

# Partition Information 

# col name data type comment 
p date string 

# Detailed Table Information 

Database: tmp 

Owner: work 

CreateTime: Mon Mar 21 15:37:20 CST 2016 
LastAccessTime: UNKNOWN 

Protect Mode: None 


yi 从 基础 理论 到 最 佳 实践 


Retention: 0 

Location: 
hdfs://hlg-muce3/user/hive/warehouse/tmp.db/customorder 
Table Type: MANAGED TABLE 


Table Parameters: 
transient lastDdlTime 1458545840 


# Storage Information 


SerDe Library: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe 
InputFormat: org.apache.hadoop.mapred.TextInputFormat 
OutputFormat: 
org.apache.hadoop.hive.ql.io.HivelgnoreKeyTextOutputFormat 

Compressed: No 

Num Buckets: -— 

Bucket Columns: [1 


Sort Columns: 

Storage Desc Params: 
field.delim Nt 
line.delim in 
serialization.format Vt 


Hive 表 有 两 种 类 型 :内 部 表 和 外 部 表 。 上 面 可 以 看 到 Table Type Jé MANAGED TABLE, 
表明 这 个 表 是 个 内 部 表 。 

内 部 表 的 分 区 数据 与 HDFS 存储 数据 强 关 联 ， 表 删除 或 者 分 区 删除 的 时 候 ， 对 应 的 数 
据 也 会 删除 ， 外 部 表 就 是 Hive 只 通过 指定 的 位 置 来 加 载 表 中 的 数据 ， 而 表 删 除 的 时 候 ， 对 
应 的 数据 不 会 删除 。 

使 用 外 部 表 ， 需 要 在 建 表 的 时 候 指 定 external 关键 字 ， 而 且 必须 指定 location 属性 : 


CREATE EXTERNAL TABLE customOrder ( 
LOCATION '$HDFSPATH' 


应 注意 ， 虽 然 这 里 指定 了 HDFS 路 径 ， 但 是 ，Hive 并 不 会 将 路 径直 接 关联 成 为 
customOrder 表 的 PARTITION， 而 是 需要 通过 ADD PARTITION 操作 来 进行 关联 。 


3. 修改 表 结构 
在 Hive 里 面 ， 修 改 表 结构 的 操作 与 传统 数据 库 类 似 ; 


ALTER TABLE tableName RENAME TO newName 

ALTER TABLE tableName ADD COLUMNS (colSpec[, colSpec ...]) 
ALTER TABLE tableName DROP [COLUMN] columnName 

ALTER TABLE tableName CHANGE columnName newName newType 

ALTER TABLE tableName REPLACE COLUMNS (colSpec[, colSpec ...]) 


应 注意 ，Hive 里 面 增加 、 删 除 字段 的 操作 只 能 是 所 有 非 分 区 字段 中 的 最 后 一 个 。 对 于 
新 增加 的 字段 ，Hive 对 于 已 有 数据 ， 会 认为 这 个 字段 是 NULL. 


4. 删除 表 
Hive 中 删除 表 的 操作 与 传统 数据 库 类 似 ， 执 行 后 ， 内 部 表 关 联 的 HDFS 上 的 数据 会 一 
并 被 删除 : 


DROP TABLE [IF EXISTS] table name; 
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9.4.2 ”数据 操纵 语言 DML 
1. 分 区 操作 


如 果 需 要 从 HDFS 某 个 目录 加 载 数据 到 表 的 分 区 中 ， 可 以 使 用 如 下 方式 。 如 果 是 从 执 
行 Hive Shell 的 机 器 上 load 数据 的 话 ， 可 以 使 用 LOAD DATA LOCAL INPATH 
“$LOCALPATH 的 方式 。 注 意 : SHDFSPATH 和 $LOCALPATH 可 以 指定 一 个 目录 ， 也 可 以 
指定 一 个 文件 。 


LOAD DATA INPATH 'S$HDFSPATH' INTO TABLE customOrder PARTITION 
(p date-'20160101'); 


如 果 和 希望 将 HDFS 上 的 数据 加 载 到 表 的 一 个 分 区 上 ， 则 可 以 使 用 如 下 方法 。 使 用 下 面 
这 种 方法 ， 添 加 分 区 的 时 候 ， 不 会 复制 /移动 数据 ， 而 是 直接 将 Hive 元 数据 库 中 的 这 个 
PARTITION 指向 SHDFSPATH。 


ALTER TABLE customorder ADD PARTITION (p date-'20160101') LOCATION 
'SHDFSPATH'; 


另外 一 种 添加 分 区 的 方法 ， 是 使 用 查询 结果 来 生成 分 区 数据 : 


INSERT OVERWRITE TABLE customOrder PARTITION(p date-'20160101') SELECT ... 


这 里 还 有 一 个 概念 ， 叫 动态 分 区 ， 它 是 根据 SELECT 子 句 的 结果 来 决定 分 区 的 字段 值 ， 
我 们 需要 在 执行 HiveSQL 之 前 设 定 hive.exec.dynamic.partition=true: 才 能 使 用 。 

Hive 添加 分 区 的 时 候 ， 不 会 对 数据 进行 任何 检查 ， 只 是 简单 地 在 Hive 元 数据 库 中 增加 
一 条 记录 。 如 果 源 文件 格式 不 正确 ， 也 只 有 在 做 查询 操作 时 候 才 能 发 现 ， 对 于 无 法 识别 的 
字段 ， 会 以 NULL 来 显示 。 

要 查看 一 张 表 的 所 有 分 区 ， 可 以 使 用 SHOW PARTITIONS customorder。 对 于 多 个 分 区 
字段 的 ， 也 可 以 在 后 面 添加 PARTITION(p_date=“20160101”) 来 限定 只 展示 符合 这 个 分 区 限 





























定 的 所 有 分 区 。 

如 果 希 望 删除 分 区 ， 可 以 使 用 如 下 方法 。 注 意 ， 对 于 内 部 表 来 说 ， 相 应 SHDFSPATH 
上 的 数据 也 会 被 删除 掉 。 

ALTER TABLE customOrder DROP PARTITION (p date-'20160102'); 

2. 查询 操作 


Hive 里 面 的 SELECT 操作 ， 基 本 思路 与 传统 数据 库 也 是 类 似 的 ， 基 本 语法 如 下 所 示 : 


SELECT [ALL | DISTINCT] selectExpr, selectExpr, ... 

FROM tableReference 

[WHERE whereCondition] 

[GROUP BY colList | [HAVING havingCondition]] 

[CLUSTER BY colList] | [DISTRIBUTE BY colList] [SORT BY colList] 
[ORDER BY colList] 

[LIMIT number] 


ALL 和 DISTINCT 指定 重复 的 行 是 否 都 返回 ， 默 认 是 ALL( 即 所 有 的 行 都 返回 )。 
WhereCondition 是 一 个 返回 boolean 的 表达 式 。ORDER BY 是 全 局 排序 。SORT BY 是 数据 
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在 进入 reducer 之 前 排序 ， 当 然 ， 如 果 只 有 一 个 reducer 的 话 ， 就 是 整体 有 序 的 。 

DISTRIBUTE BY 是 指 执 行 任务 的 时 候 , 对 数据 按照 它 指定 的 列 来 分 发 到 不 同 的 reducer 
来 处 理 。CLUSTER BY 兼 具 DISTRIBUTE BY 和 SORT BY 的 功能 ， 但 是 ， 排 序 只 能 是 倒 
序 排列 ， 不 能 指定 排序 规则 。 

HiveSQL 会 有 一 些 为 转 为 分 布 式 计 算 而 约定 的 一 些 特殊 情况 。 下 面 详 细 说 明 使 用 
HiveSQL 的 一 些 注意 事项 。 

(1) 不 支持 等 值 连接 。 

传统 数据 库 中 , 经 常 使 用 FROM A, B WHERE A.al = B.bl 这 样 的 操作 , 在 HiveSQL 中 











需要 使 用 FROM A [left | right | full outer] join B on (A.al=B.b1) 这 种 方式 。 


(2) JOIN 操作 。 














下 面 使 用 两 张 表 来 讲解 JOIN 的 差别 ， 如 表 9-3 所 示 。 
表 9-3 ”两 张 示例 表 的 数据 





= 


数据 









表 A( 字 段 a1、a2) 
1 a 


2 a 
b 


下 面 是 这 两 张 表 各 种 形式 关联 的 结果 ， 如 表 9-4 所 示 。 
表 9-4 两 张 表 关联 的 结果 


ALEFT OUTER JOINB 
ON (A.a1-B.bl) 


A RIGHT OUTER JOIN B 
ON (A.a1=B.b1) 


A FULL OUTER JOIN B 
ON (A.a1=B.b1) 


说 明 
两 个 表 的 列 直接 关联 ， 只 有 找到 相等 数 
据 的 会 保留 
左 外 关联 : 左 表 的 所 有 行 都 会 保留 ， 能 
够 在 右 表 中 找到 匹配 的 行 则 关联 ， 否 则 
右 表 字 段 为 NULL 
右 外 关联 : 右 表 的 所 有 行 都 会 保留 ， 能 
够 在 左 表 中 找到 匹配 的 行 则 关联 ， 否 则 
左 表 字段 为 NULL 
全 外 关联 : 左右 表 的 所 有 行 都 会 被 保留 ， 
关联 不 上 的 字段 为 NULL 








ALEFT SEMIJOINB 
ON (A.al=B.b1) 








左 半 连 接 , 类 似 于 传统 数据 库 中 的 IN 操 
作 ， 只 保留 左 表 字 段 中 在 右 表 字段 出 现 
过 的 行 。 而 且 SELECT 和 WHERE 子 句 
中 不 能 出 现 右 表 中 的 字段 
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传统 数据 库 中 ，NULL 通常 表示 空 值 ， 在 Hive 里 面 ， 如 果 字 符 串 为 空 ( 即 长 度 为 0)， 对 
它 进行 判断 的 时 候 ，IS NULL 结果 会 是 False。 

(4) 数据 类 型 转换 。 

常见 的 数据 类 型 转换 ， 如 前 面 介绍 数据 类 型 所 述 ， 如 果 需 要 显 式 转化 ， 可 以 这 样 做 : 
CAST(columnName AS double). 

(5) 不 能 INSERT INTO, UPDATE, DELETE. 

在 Hive 里 面 ， 只 能 LOAD 或 者 INSERT OVERWRITE INTO 整 张 表 或 者 整个 分 区 ， 而 
不 能 在 现 有 的 表 或 者 分 区 中 INSERT INTO 几 行 数据 。 也 不 允许 执行 UPDATE 更 新 操作 。 
对 于 删除 数据 ， 也 必须 是 批量 删除 整 张 表 或 者 整个 分 区 ， 不 能 DELETE 几 条 。 

这 里 的 限制 ， 充 分 说 明了 Hive 作为 数据 仓库 框架 通常 只 支持 一 次 写 多 次 读 的 操作 。 

3. 执行 计划 

一 个 HiveSQL, 在 执行 的 时 候 , 是 往 Hadoop 上 提交 一 个 或 多 个 前 后 关联 的 MapReduce 
任务 ， 来 完成 整个 HiveSQL 的 任务 处 理 需求 。 当 我 们 写 的 HiveSQL 比较 复杂 的 时 候 ， 想 要 
查看 HiveSQL 在 Hadoop 上 的 整个 执行 过 程 (比如 划分 为 几 个 阶段 ， 分 别 做 什么 )， 可 以 使 用 
explain. 

例如 ， 原 始 SQL 如 下 : 


select * from customOrder where p date-20160101 and price>10; 


如 果 执 行 这 条 语句 ， 结 果 是 通过 SQL 解析 ， 输 出 原始 SQL 对 应 的 执行 计划 ， 但 是 ， 不 
会 真正 去 执行 查询 任务 : 


hive» explain select * from customOrder where p date-20160101 and price>10; 
OK 




















STAGE DEPENDENCIES: 
Stage-0 is a root stage 


STAGE PLANS: 
Stage: Stage-0 
Fetch Operator 
limit: -1 
Processor Tree: 
TableScan 
alias: customorder 
Statistics: Num rows: 1 Data size: 122 Basic stats: PARTIAL 
Column stats: NONE 
Filter Operator 
predicate: (price » 10) (type: boolean) 
Statistics: Num rows: 1 Data size: 122 Basic stats: COMPLETE 
Column stats: NONE 
Select Operator 
expressions: type (type: int), salemanid (type: bigint), 
customerid (type: bigint), goodid (type: bigint), 
price (type: decimal(10,2)), '20160101' (type: string) 
outputColumnNames: col0, coll, col2, col3, col4, col5 
Statistics: Num rows: 1 Data size: 122 Basic stats: COMPLETE 
Column stats: NONE 
ListSink 


Time taken: 0.194 seconds, Fetched: 20 row(s) 


我 们 可 以 看 出 : 这 个 SQL 只 有 Stage-0 这 样 一 个 阶段 ， 处 理 方法 是 扫描 表 ， 其 中 的 过 





yi 从 基础 理论 到 最 佳 实践 


滤器 操作 是 price>10， 选 择 器 是 该 表 的 所 有 字段 ，Hive 内 部 会 把 它们 称 为 col0、_coll 等 。 

细心 的 读者 可 能 会 发 现 ， 过 滤器 中 并 没有 限定 20160101， 而 选择 器 结果 的 最 后 一 个 字 
段 却 是 20160101， 这 是 因为 ，Hive 的 不 同 分 区 是 不 同 的 目录 ， 当 我 们 在 SQL 里 面 指定 了 分 
区 条 件 后 ， 则 对 应 的 任务 的 输入 就 是 这 个 分 区 目录 的 数据 ， 同 时 ， 选 择 的 最 后 一 个 字段 也 
就 是 这 个 分 区 值 。 


读者 在 实战 过 程 中 会 发 现 ， 分 区 值 一 般 会 在 目录 名 里 面 ， 在 具体 的 数据 文件 中 是 
没有 分 区 字段 的 。 同 时 ， 这 也 是 为 什么 我 们 修改 表 结构 增加 的 字段 总 是 在 分 区 字段 前 
面 的 原因 。 





4. 查看 描述 
查看 数据 库 描述 的 语法 如 下 ， 其 中 第 二 条 语句 在 Hive 0.15.0 以 上 的 版 本 中 可 以 使 用 : 


DESCRIBE DATABASE [EXTENDED] db name; 
DESCRIBE SCHEMA [EXTENDED] db name; 


例如 : 


hive»desc database default; 

OK 

default Default Hive database hdfs://localhost:9000/user/hive/warehouse 
public ROLE 

Time taken: 0.141 seconds, Fetched: 1 row(s) 


查看 表 、 视 图 和 列 的 语法 如 下 (下 面 的 语句 只 在 Hive 0.x.x 和 Hive 1.x.x 版 本 中 使 用 ): 


DESCRIBE [EXTENDED|FORMATTED] [db name.]table name[.col name([.field name] 


I[.'$elem$'] | [.'$key$'] | [.'$value$'] )*] 
DESCRIBE [EXTENDED|FORMATTED] [db name.]table name[ col name([.field name] 
| [.'S$elem$'] | [.'$key$'] | [.'$value$'] )*]; 


例如 ， 下 面 是 直接 describe 和 查看 格式 化 的 更 多 详细 信息 对 比 : 


hive>desc mytest; 


OK 
id int 
name string 


Time taken: 0.177 seconds, Fetched: 2 row(s) 
hive> desc formatted mytest; 


OK 

# col name data type comment 
id int 

name string 


# Detailed Table Information 


Database: default 

Owner: work 

CreateTime: Fri Feb 26 01:24:31 PST 2016 

LastAccessTime: UNKNOWN 

Protect Mode: None 

Retention: 0 

Location: hdfs://localhost:9000/user/hive/warehouse/mytest 
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Table Type: MANAGED TABLE 
Table Parameters: 
COLUMN STATS ACCURATE false 


numFiles 0 
numRows -1 
rawDataSize -1 
totalSize 0 


transient lastDdlTime 1456478671 


# Storage Information 


SerDe Library: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe 
InputFormat: org.apache.hadoop.mapred.TextInputFormat 
OutputFormat: 
org.apache.hadoop.hive.ql.io.HivelgnoreKeyTextOutputFormat 

Compressed: No 

Num Buckets: -1 

Bucket Columns: [] 

Sort Columns: [] 


Storage Desc Params: 
serialization.format 1 
Time taken: 0.158 seconds, Fetched: 32 row(s) 


关于 更 多 的 信息 ， 如 查看 partition 的 信息 等 ， 读 者 可 到 如 下 地 址 查看 : 


https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#Lang 
uageManualDDL-DescribeDatabase 


5. 执行 参数 设置 


在 执行 HiveSQL 优化 的 时 候 ， 经 常 需要 指定 各 种 参数 ， 指 定 方法 为 : 
SET 参数 名 = 参数 值 ; 


下 面 是 一 些 常见 的 参数 ， 读 者 可 以 根据 HiveSQL 优化 的 需求 选择 性 地 添加 : 


set hive.exec.dynamic.partition-true; // 设 置 允许 动态 分 区 

set hive.exec.dynamic.partition.mode-nonstrict; // 如 果 为 strict， 则 必须 指定 一 
个 静态 分 区 ，nonstrict 则 不 做 要 求 

set hive.exec.default.partition.name-NULL; // 默 认 的 动态 分 区 名 称 ， 当 动态 分 区 列 为 
“或 者 null 的 时 候 ， 使 用 设置 的 这 个 值 

set hive.exec.reducers.max=200; // 最 多 并 行 的 reducer 个 数 

set hive.exec.parallel-true; // 是 否 开启 Map Reduce 的 并 发 提交 ， 默 认为 false 

set hive.exec.parallel.thread.number-8; // 并 发 线程 的 个 数 

set hive.groupby.skewindata-true; // 数 据 倾斜 时 负载 均衡 ， 当 选项 设 定 为 true 时 ， 生 
成 的 查询 计划 会 有 两 个 MRJob。 第 一 个 MRJob (P, Map 的 输出 结果 集合 会 随机 分 布 到 Reduce 中 ， 
每 个 Reduce 做 部 分 聚合 操作 ， 并 输出 结果 ， 这 样 处 理 的 结果 ， 是 相同 的 GroupBy Key 有 可 能 被 
分 发 到 不 同 的 Reduce 中 ， 从 而 达到 负载 均衡 的 目的 ， 第 二 个 MRJob 再 根据 预 处 理 的 数据 结果 ， 按 
照 GroupBY Key 分 布 到 Reduce 中 (这 个 过 程 可 以 保证 相同 的 GroupBY Key 被 分 布 到 同一 个 
Reduce 中 ) ， 最 后 完成 最 终 的 聚合 操作 

set hive.merg.mapfiles-true; // 合 并 map 输出 

set hive.merge.mapredfiles-false; // 合 并 reduce 输出 

set hive.merge.size.per.task-256*1024*1024; // 合 并 文件 的 大 小 

set hive.mergejob.maponly-true; // 是 否 启用 Map Only 的 合并 job 

set hive.merge.smallfiles.avgsize-16000000; // 文 件 的 平均 大 小 小 于 该 值 时 ， 会 启动 
一 个 MR 任务 执行 merge 

set mapred.reduce.tasks-20; //reduer 的 个 数 

set hive.exec.reducers.bytes.per.reducer-1G; // 每 个 reduce 任务 处 理 的 数据 量 
set hive.exec.reducers.max-999; // 每 个 任务 最 大 的 reduce 数目 。reducer 数 =min (本 
参数 ， 总 输入 数据 量 /上 一 个 参数 ) 
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6. 运算 符 


(1) 关系 型 运算 符 。 

关系 运算 符 包括 三 个 判 等 关系 运算 符 =、 一 、< 一 >， 两 个 判 不 等 运算 符 二 和 !=， 大 于 
小 于 运算 符 >、<、>=、<=， 属 于 区 间 的 运算 符 BETWEEN ... AND ... Jill NULL 的 运算 
符 IS NULL, IS NOT NULL， 匹 配 运算 符 LIKE、RLIKE、REGEXP。 它 们 的 含义 我 们 不 详 
细 讲 解 ， 读 者 在 使 用 的 时 候 ， 注 意 NULL 值 对 于 运算 结果 的 影响 ， 这 是 在 HiveSQL 开发 中 
常见 的 容易 出 错 的 地 方 。 

Q) 算数 运算 符 。 

HiveSQL 中 支持 +、-、*、/、%( 求 余 )、&( 按 位 与 )、|( 按 位 或 )、^( 按 位 异 或 )、~( 求 反 )。 

G) 逻辑 运算 符 。 

HiveSQL 中 支持 AND、&&( 同 AND). OR. ||(F] OR)、NOT( 求 反 )、!( 也 表示 求 反 )、 IN( 在 
集合 中 )、NOT IN( 不 在 集合 中 )、EXISTS( 存 在 至 少 一 行 )、NOT EXISTS( 不 存在 )。 

应 注意 ，IN、NOT IN、EXISTS、NOT EXISTS 这 几 个 运算 符 是 在 Hive 0.13 版 本 之 后 
才能 支持 的 。 如 果 有 使 用 先前 版 本 的 Hive， 可 以 使 用 其 他 操作 来 实现 相关 的 功能 。 如 通过 
LEFT OUTER JOIN 之 后 ， 选 取 是 否 右 表 列 为 NULL 来 实现 IN 操作 等 。IN 操作 的 例子 如 : 


SELECT * 
FROM A 
WHERE A.a IN (SELECT foo FROM B) OR A.b IN ("A", "B", "C"); 


(4) 复杂 类 型 的 运算 符 。 

可 以 通过 map(keyl, valuel, key2, value2，.…) 的 方式 构造 一 个 map， 通 过 struct(valuel, 
value2，value3，.…) 的 方式 来 构造 一 个 STRUCT( 构 造 出 的 STRUCT 的 字段 名 是 coll. col2, 
col3 、col4)， 通 过 name struct(namel, valuel, value2, value3, .…) 的 方式 来 构造 一 个 STRUCT, 
通过 array(value1，value2) 的 方式 构造 一 个 数组 ， 通 过 create union(tag, valuel, value2, 
value3, .…) 的 方式 来 构造 一 个 tag， 指 向 value 的 union. 

可 以 使 用 Array[n] 的 方式 获取 array 中 下 标 为 n 的 元 素 ， 可 以 是 使 用 Map[key] 的 方式 获 
取 map 中 键 值 为 key 的 元 素 。 我 们 看 一 个 下 面 的 例子 ， 来 理解 一 下 array 和 create union 的 
用 法 ， 其 他 的 读者 可 以 自行 练习 : 


hive» DESC studentScore; 




















OK 

student string 
course string 
Score int 


Time taken: 0.139 seconds, Fetched: 3 row(s) 

hive» SELECT * FROM studentScore; 

OK 

xiaohong CHINESE 85 

xiaohong MATHS 78 

xiaohong ART 99 

lilei CHINESE 89 

lilei ART 78 

Time taken: 0.115 seconds, Fetched: 5 row(s) 

hive» SELECT student, IF(array contains (array ("CHINESE", "MATHS"), course), 
"MAIN COURSE", "OTHER"), create union(if(score»80, 0, 1),"excellent", 
"normal") FROM studentScore; E 
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xiaohong MAIN COURSE (0:"excellent"] 
Xiaohong MAIN COURSE {1:"normal"} 

xiaohong OTHER (0:"excellent"] 

lilei MAIN COURSE (0:"excellent") 

lilei OTHER ([1:"normal") 

Time taken: 0.174 seconds, Fetched: 5 row(s) 


T. 函数 


Q) 数学 函数 。 

HiveSQL 中 支持 很 多 数学 函数 ， 如 log, In, power, sqrt, sin, cos, e, floor, ceil 等 。 

(2) 集合 操作 函数 。 

size0 可 以 返回 map 或 者 Array 的 大 小 。map_keys0、map_values0 可 以 返回 一 个 map 中 
的 所 有 键 或 者 值 的 集合 数组 。Array_contains() 可 以 用 来 判断 一 个 数组 中 是 否 包 含 给 定 的 元 
Ko Sort array0 可 以 将 给 定 的 数组 按照 升序 排列 。 

(3) 类 型 转换 函数 。 

binary(string | binary) 可 以 把 参数 转 为 binary。 可 以 使 用 CAST(expr AS <type>) 的 方式 做 
类 型 的 转换 。 

(4) 日 期 函数 。 

最 常用 的 日 期 函数 是 取出 一 个 日 期 的 年 year、 取 出 月 month、 取 出 日 期 day、 取 出 小 时 
hour、 取 出 分 钟 minute、 取 出 秒 second。HiveSQL 中 还 支持 比较 日 期 date_diff， 日 期 增 减 
date add, date sub， 返 回 当前 日 期 current date. current timestamp ， 对 日 期 进行 格式 化 
date format 等 操作 。 

(5) 条 件 操作 函数 。 

条 件 操作 函数 主要 有 根据 条 件 选择 使 用 值 下 (testCondition, TrueValue, FalseValue)、 
CASE WHEN ELSE END， 判 断 字 段 是 否 NULL 一 一 isnull0)、isnotnull0， 返 回 第 一 个 非 空 元 
素 COALESCE。 

(6) 字符 串 操作 函数 。 

字符 串 操 作 函 数 主要 有 : 字符 串 连接 函数 concat、concat_ws， 编 码 解码 函数 encode, 
decode， 字 符 串 长 度 length， 字 符 串 翻转 reverse， 截 取 字符 串 substr， 删 除 字 符 串 边 上 的 空 
白 trim 等 。 




















9.5 Hive 的 自 定义 函数 


前 面 我 们 介绍 了 Hive 中 的 DDL 和 DML， 其 中 ， 最 常用 的 是 查询 语句 SELECT， 而 且 
Hive 已 经 默认 支持 多 种 关系 运算 、 算 数 运算 、 逻 辑 运算 等 操作 ， 而 且 支 持 很 多 内 置 函数 。 

在 实际 业务 场景 中 还 是 会 遇 到 一 些 复杂 的 业务 逻辑 ， 会 遇 到 HiveSQL 的 内 置 函数 无 法 
处 理 的 情况 。 这 时 ， 就 需要 自己 写 一 些 自 定义 的 函数 (User Defined Function，UDF) 来 处 理 ， 
自 定义 的 UDF 有 三 种 。 

(1) 普通 UDF: 接收 表 中 的 一 行 数据 ， 处 理 之 后 返回 一 行 。 

(2) 聚合 UDF(UDAF): 接收 表 中 的 多 行 数据 ， 处 理 之 后 返回 一 行 。 

(3) 展开 UDF(UDTF): 接收 表 中 的 一 行 数据 ， 处 理 之 后 返回 多 行 。 
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由 于 Hadoop、Hive 这 一 套 框架 是 Java 语言 开发 的 ， 所 以 UDF 都 需要 使 用 Java 来 做 。 
下 面 详细 讲解 一 下 三 种 UDF 的 定义 。 


9.5:4 "UDF 


在 做 业务 分 析 的 时 候 ， 经 常 需要 根据 日 志 中 的 IP 来 获取 用 户 的 地 域 信息 ， 进 而 做 一 些 
基于 地 域 维度 的 业务 判断 。 这 个 时 候 ， 就 需要 将 IP 转换 为 地 域 了 。 本 小 节 给 读者 讲解 一 个 
将 四 和 转 为 地 域 UDF 的 整个 过 程 。 经 调研 ,选择 纯真 IP 库 (参考 网 址 : http://www.cz88.net/)。 
当然 , 你 也 可 以 使 用 类 似 的 其 他 IP. 地 址 库 , 但 是 应 注意 , 8E— XX IP 库 的 格式 可 能 不 太一 样 ， 
需要 根据 地 址 库 的 格式 来 写 出 正确 的 解析 程序 ， 才 能 正常 使 用 。 本 示例 的 代码 在 czIpInfo 
项 目 中 ， 读 者 可 自行 部 署 和 使 用 。 


1. 核心 业务 逻辑 一 一 解析 IP 地 址 


我 们 要 做 的 这 个 UDF， 是 接收 一 个 IP 作为 输入 ， 通 过 在 P 地 址 库 文件 中 查找 IP 所 在 
的 地 址 段 ， 来 决定 这 个 人 P 所 在 的 地 域 和 运营 商 ， 并 将 结果 返回 。 

我 们 把 网 上 下 载 到 的 IP 地 址 库 文件 qqwry.dat 放 入 项 目的 资源 文件 目录 resources 中 。 

接 下 来 , 我 们 要 按照 约定 的 格式 , 读 取 IP 地 址 库 , 读者 可 以 查看 项 目 中 的 IPSeekerjava 
文件 。IPSeeker 的 了 了 FILE 定义 了 从 qqwry.dat 中 读 取 他 信息 的 数据 ,之 后 ,在 构造 函数 里 
面 使 用 了 IPSeeker.class.getClassLoader().getResourceAsStream 的 方式 来 获取 项 目 资源 文件 的 
InputStream， 之 后 ， 在 toRandomAccessFile 中 ， 按 照 每 兆 读 取 一 次 的 方法 ， 获 取 qqwry.dat 
的 内 容 ， 形 成 this.ipFile 这 个 RandomAccessFile 的 句柄 。 如 果 获 取 不 到 文件 或 者 读 取出 错 ， 
则 直接 抛 出 RuntimeException 退出 。 


if (this.ipFile == null) ( 
try ( 
InputStream ipFileStream = IPSeeker.class.getClassLoader() 
-getResourceAsStream("qqwry.dat"); 
this.ipFile = toRandomAccessFile (ipFileStream); 
) catch (Exception e) ( 
throw new RuntimeException( 


"IP 地 址 信息 "+ IP FILE + "文件 没有 找到 ，IP 显示 功能 将 无 法 使 用 ") ; 





} 
} 


在 getIPLocation 方法 中 ， 使 用 已 经 转 为 字 节 数组 的 IP, fE locateIP 中 ， 从 前 到 后 查找 
JE IP 7E qqwry.dat 中 对 应 的 记录 ， 如 果 找 到 ， 则 获取 offset X INI] TP 的 地 域 信息 并 返回 : 


public IPLocation getIPLocation (byte[] ip) { 
IPSeeker.IPLocation info = null; 
long offset = locateIP(ip); 
if (offset != -1L) ( 
info = getlIPLocation (offset); 





} 

if (info == null) { 
info = new IPSeeker.IPLocation (this); 
info.country - = "未 知 国家 "; 
info.area = "未 知 地 区 "; 

} 

return info; 
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在 getLocation 方法 中 ,我 们 可 以 获取 一 个 人 P 所 属 的 地 域 ， 对 于 已 经 查找 过 的 IP, 我 们 
会 把 这 个 IP 和 对 应 的 地 域 放 入 到 ipCache 中 ， 以 便于 再 次 查找 的 时 候 可 以 快速 返 
其 他 读 取 IP 地 址 库 的 部 分 不 详细 讲解 ， 读 者 可 以 自行 查阅 资料 。 


2. 传 入 IP 地 址 的 适 配 


有 些 时 候 ， 我 们 传 入 的 IP 地 址 是 一 个 用 英文 句号 分 隔 的 4 个 1-255 的 数字 组 成 的 字符 
串 ， 如 “202.110.34.234”。 有 的 时 候 ， 我 们 传 入 的 是 一 个 长 整 型 数字 ， 如 3396215530( 这 个 
数值 与 前 面 的 字符 串 表 示 的 是 相同 的 亿 ， 读 者 可 以 自行 研究 )。 但 是 ， 我 们 上 面 的 IPSeeker 
只 支持 public String getLocation(String ip)。 因 此 ， 我 们 在 IPUtils.java 中 给 出 了 一 个 方法 : 
public static String long2Ip(long ip), 这 样 , 在 UDF 中 就 可 以 实现 无 论 是 传 入 字符 串 还 是 数值 
的 耳 ， 都 可 以 找 出 这 个 IP 对 应 的 地 域 了 。 


3. 完成 UDF 开发 


UDF 需要 继承 org.apache.hadoop.hive.ql.exec.UDF， 并 书写 类 的 evaluate 方法 。 

可 以 看 到 , 在 IPInfoUDF.java H, 我们 实现 了 4 个 evaluate 方法 。 前 两 个 是 针对 字符 串 
的 卫 ， 可 以 是 直接 返回 通过 纯真 IP 库 解析 出 来 的 ， 也 可 以 通过 与 Contants java 中 的 国家 、 
省 份 、 城 市 信息 做 匹配 ， 来 获取 一 个 IP 所 述 的 国家 、 省 份 、 城 市 。 后 两 个 evaluate 方法 是 
调用 了 IPUtilsjava 中 的 long2Ip 方法 , 之 后 再 使 用 前 两 个 方法 来 获取 结果 。 如 果 我 们 直接 运 
fT IPInfoUDF java 的 main 方法 ， 则 可 以 获取 到 如 下 结果 : 

202.110.34.234: 辽宁 省 盘锦 市 
E d aali 
X 
盘锦 


4. 打包 和 部 署 


按照 maven 项 目 部 署 好 之 后 ， 我 们 可 以 编译 打出 JAR 包 。 然后 ， 需 要 将 这 个 JAR 包 加 
入 到 Hive 里 面 。 有 两 种 方式 ， 临时 的 Hive 函数 和 永久 的 Hive 函数 。 

(1) 如 果 只 是 临时 需要 使 用 的 Hive 函数 ， 可 以 使 用 如 下 的 方法 ， 这 种 方法 在 断 开 当 前 
的 Hive 连接 之 后 ， 就 无 法 再 使 用 该 函数 了 : 

hive>add jar /home/work/ipinfo.jar; 

Added [/home/work/ipinfo.jar] to class path 

Added resources: [/home/work/ipinfo.jar] 

hive»create temporary function getArea as 'com.hive.udf.IPInfoUDF'; 


OK 
Time taken: 14.96 seconds 


接 下 来 ， 就 可 以 使 用 这 个 函数 了 : 

hive» select getArea (3396215530) from show where p date-'20150101' limit 1; 
OK 

辽宁 省 盘锦 市 

Time taken: 0.206 seconds, Fetched: 1 row(s) 

hive» select getArea (3396215530, 'country'), 


getArea(3396215530,'province'),getArea(3396215530,'city') from show where 
p date-'20150101' limit 1; 





In] 
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OK 
HH 辽宁 盘锦 
Time taken: 0.178 seconds, Fetched: 1 row(s) 


Q) 第 二 种 方式 是 创建 一 个 长 期 的 Hive 函数 : 

[workélocalhost:-]$ hadoop fs -put /home/work/ipinfo.jar /tmp/ipinfo.jar 

[work8localhost:-]$ hive 

Logging initialized using configuration in 

jar:file:/home/work/lib/hive-common-1.2.1.jar!/hive-10g4j.properties 

hive» create function default.getArea as 'com.hive.udf.IPInfoUDF' using JAR 

"hdfs://YOURCLUSTERNAME/tmp/ipinfo.jar"; 

converting to local hdfs://YOURCLUSTERNAME/tmp/ipinfo.jar 

Added [/home/work/hivelogs/tmp resources/work/17b89988-bbc0-40e9-a39d 

-3901516a6fc4 resources/ipinfo.jar] to class path 

Added resources: [hdfs://YOURCLUSTERNAME/tmp/ipinfo.jar] 

OK 

Time taken: 15.137 seconds 

hive»select default.getArea(3396215530,'province') from show where 

p date-'20150101' limit 1; 

OK 

辽宁 

Time taken: 1.274 seconds, Fetched: 1 row(s) 

应 注意 ， 在 创建 长 期 的 Hive 函数 之 前 ， 先 要 确定 函数 的 命名 空间 ， 我 们 上 面 直接 把 这 
个 函数 放 在 default 下 面 了 ， 所 以 后 面 使 用 的 时 候 ， 也 需要 使 用 default.getArea。 另 外 ， 上 面 
的 YOURCLUSTERNAME 在 使 用 的 时 候 ， 应 蔡 换 为 读者 具体 的 集群 名 称 。 

与 使 用 Hive 表 类 似 ， 我 们 也 可 以 使 用 show functions 来 查看 现 有 哪些 函数 ， 使 用 drop 


function if exists functioname 来 删除 现 有 的 函数 。 
5. 注意 UDF 优化 


类 似 于 上 面 的 例子 ， 是 一 个 IP 转 地 域 的 函数 。 如 果 要 在 一 个 很 大 的 分 区 上 执行 这 个 操 
作 ( 比 如 一 天 的 数据 量 很 大 的 情况 )， 对 于 每 一 行 记录 ， 都 会 执行 这 个 UDF， 如 果 不 做 优化 ， 
每 次 执行 都 重新 读 取 qqwry.dat 数据 。 设 业务 数据 对 于 相同 的 他 会 出 现 多 次 ,如 果 不 做 优化 ， 
则 同一 个 IP 出 现 几 次 就 需要 查找 几 次 。 这 时 候 ， 我 们 需要 针对 这 种 情况 做 一 些 针 对 性 的 优 
化 ， 以 避免 因为 UDF 的 原因 ， 拖 慢 整 个 表 的 查询 速度 。 

比如 ， 上 面 代 码 中 会 有 if (this.ipFile 一 null) 的 判断 ， 避 免 多 次 读 取 ， 上 面 代码 中 也 会 
有 ipCache， 避 人 免 对 于 相同 的 下 做 多 次 查找 。 

当然 ， 对 于 UDF 的 书写 ， 需 要 根据 当时 的 业务 情况 来 做 针对 性 的 优化 ， 这 里 没有 通用 
的 规则 ， 需 要 在 理解 MapReduce 执行 原理 的 情况 下 做 。 


(MER | 
对 于 UDF 的 效率 ， 可 以 对 比 使 用 和 不 使 用 UDF 的 时 候 的 查询 效率 ， 来 判断 ， 如 
果 使 用 UDF 后 时 间 明 显 变 长 ， 则 建议 做 优化 。 




















9.5.2 UDAF 
UDAF 即 聚 合 函数 ， 一 般 是 在 分 组 (或 者 整 张 表 ) 的 数据 处 理 过 程 中 使 用 的 。 比 如 ， 在 一 
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个 表 中 有 几 列 : 学 生 id、 班级、 学科、 成绩， 在 处 理 的 时 候 ， 我 们 希望 按照 班级 来 分 组 ， 
计算 学 生 的 平均 成 绩 ， 或 者 按照 学 科 来 分 组 ， 计 算 平 均 成 绩 。 这 时 候 ， 都 需要 按照 某 一 列 
做 GROUP BY， 之 后 对 成 绩 列 做 AVG 操作 来 获取 平均 成 绩 。 其 中 ， 求 平均 的 操作 AVG 就 
是 Hive 中 默认 支持 的 一 个 聚合 操作 。 

下 面 的 网 址 中 已 经 列 出 了 默认 支持 的 聚合 函数 的 列表 ， 类 似 sum. max. count distinct 
以 及 一 些 基 本 的 数学 运算 ， 已 经 在 Hive 默认 支持 的 列表 里 面 : 


https://cwiki.apache.org/confluence/display/Hive/LanguageManual-*UDF£ 
LanguageManualUDF-Built-inAggregateFunctions (UDAF) 


但 是 , 由 于 不 同 应 用 场景 要 做 的 数据 处 理 逻 辑 上 千差万别 , 总 还 会 有 一 些 操作 不 在 Hive 
的 默认 支持 列表 里 面 。 比 如 ， 我 们 要 对 一 个 分 组 中 的 某 些 列 数据 做 一 些 复杂 的 运算 。 

(1) 获取 一 列 数 据 用 逗号 连接 在 一 起 的 结果 字符 串 ， 类 似 于 MySQL 中 的 GROUP - 
CONCAT。 

(2) 将 一 个 数值 列 的 所 有 值 按照 大 小 排序 后 ， 去 掉 两 个 最 大 值 ， 去 掉 两 个 最 小 值 ， 之 
后 做 平均 。 

G) 取出 分 组 中 A 列 的 数据 符合 条 件 X 的 行 中 ，B 列 数据 的 总 和 ;如果 没有 符合 条 件 
的 行 ， 则 赋予 默认 值 。 

在 这 些 种 类 的 分 组 运算 中 ， 由 于 逻辑 不 具有 特别 强 的 通用 性 ，Hive 默认 支持 的 聚合 函 
数 是 不 能 完成 功能 的 。 但 我 们 仍旧 想 使 用 HiveSQL， 就 只 能 自己 写 UDAF 去 定义 这 些 运算 
规则 了 。 

Hive 支持 两 种 类 别 的 UDAF: 简单 UDAF 和 通用 UDAF. 简单 UDAF 书写 简单 , 但 是 ， 
由 于 采用 了 Java 反射 机 制 ， 所 以 性 能 上 会 有 劣势 ， 并 且 不 支持 类 似 变量 长 度 这 样 的 参数 列 
表 。 通 用 UDAF 对 这 些 特性 支持 得 好 ， 但 写 起 来 会 复杂 一 些 。 

下 面 ,我 们 分 别 使 用 简单 UDAF 和 通用 UDAF 来 完成 上 面 所 说 的 第 一 个 复杂 运算 操作 ， 
即 分 组 内 的 字符 串 连接 。 


1. 简单 UDAF 


本 书 提供 了 一 个 简单 的 UDAF 示例 , Bl udafExample 项 目 中 的 com.hive.udaf.Concat 类 。 

在 实现 简单 UDAF 的 时 候 ， 代 码 逻 辑 需 要 满足 如 下 几 个 条 件 。 

(1) UDAF 类 必须 继承 org.apache.hadoop.hive.ql.exec.UDAF。 

(2) UDAF 类 需要 有 一 个 实现 org.apache.hadoop.hive.ql.exec.UDAFEvaluator 接口 的 静 
态 内 部 类 。 

(3) 静态 内 部 类 需要 实现 UDAFEvaluator 接口 的 init、iterate、terminatePartial、merge、 
terminate 这 几 个 函数 。 其 中 ，init 函数 用 于 做 一 些 初始 化 的 操作 iterate 接收 传 入 的 参数 ， 
并 进行 处 理 ， 返 回 是 否 正常 处 理 完毕 的 结果 ; terminatePartial 是 iterate 函数 执行 的 结果 ， 返 
当前 处 理 过 程 的 数据 ， merge 接收 terminatePartial 返回 的 结果 ， 并 做 数据 的 merge 操作 ; 
terminate 返回 聚合 函数 最 终 的 结果 。 

代码 里 面 其 他 详细 的 情况 ， 读 者 可 以 自行 研究 。 书 写 完 代码 之 后 ， 也 是 与 前 面 讲 述 的 
UDF 添加 到 Hive 的 方法 相同 。 添 加 完 之 后 ， 就 可 以 在 Hive 里 面 使 用 了 : 


hive» create temporary function getConcat as 'com.hive.udaf.Concat'; 
OK 
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Time taken: 0.029 seconds 

hive» select getConcat(financestatus,"-") from financedata where 
p date-20160101 group by company id limit 5; 

OK 

NORMAL-NORMAL-NORMAL-NORMAL-NORMAL-NORMAL 
NORMAL-NORMAL-NORMAL-NORMAL-NORMAL-NORMAL-NORMAL 
NORMAL-NORMAL-NORMAL-NORMAL-NORMAL-NORMAL-NORMAL-NORMAL-NORMAL 
-NORMAL-NORMAL 

NORMAL-NORMAL-NORMAL-NORMAL-NORMAL-NORMAL 

NORMAL-NORMAL 

Time taken: 32.515 seconds, Fetched: 10 row (s) 


2. 通用 UDAF 


开发 通用 UDAF 有 两 个 步骤 : 第 一 个 是 编写 resolver 类 ， 它 负责 类 型 检查 ， 如 果 你 想 
做 运算 符 重 载 ， 也 可 以 在 这 里 做 ， 第 二 个 是 编写 evaluator 类 ， 真 正 实现 UDAF 的 逻辑 。 一 
般 来 说 , 顶层 的 UDAF 类 继承 自 org.apache.hadoop.hive.ql.udf.GenericUDAFResolver2， 如 果 
读者 希望 能 屏蔽 Hive 接口 未 来 的 变化 ， 应 该 继承 AbstractGenericUDAFResolver。Evaluator 
类 一 般 是 静态 内 部 类 。 

一 般 来 说 ， 通 用 的 UDAF 的 大 体 骨 架 如 下 面 的 代码 示例 。Log 对 象 用 来 写 入 警告 和 错 
误 到 Hive 的 log: getEvaluator 根据 SQL 传 入 参数 的 类 型 ,来 返回 合适 的 Evaluator; 然后 就 
是 根据 具体 需要 支持 的 参数 类 别 ， 预 先 定义 对 应 的 Evaluator。 


public class GenericUDAFHistogramNumeric extends 
AbstractGenericUDAFResolver ( 
static final Log LOG - 
LogFactory.getLog (GenericUDAFHistogramNumeric.class.getName()); 


GOverride 
public GenericUDAFEvaluator getEvaluator (GenericUDAFParameterInfo info) 
throws SemanticException ( 
//Type-checking goes here! 


return new GenericUDAFHistogramNumericEvaluator(); 
i 


public static class GenericUDAFHistogramNumericEvaluator 
extends GenericUDAFEvaluator ( 
//UDAF logic goes here! 


) 


通用 的 UDAF 的 例子 可 以 参考 udafExample 项 目 中 的 com.hive.udaf.GenerateConcat 类 ， 
这 个 类 中 ， 与 上 文 的 简单 UDAF 类 似 ， 提 供 了 连接 一 个 字段 的 功能 。 

在 getEvaluator 方法 中 ， 我 们 做 了 限定 ， 只 允许 传 入 string 类 型 的 参数 。 

在 静态 内 部 类 GenericConcatString 中 ， 我 们 定义 了 一 个 ConcatAgg 类 ， 用 来 存放 连接 
字符 串 的 结果 。 Init, getNewAggregationBuffer、 reset, iterate, terminatePartial、 merge, terminate 
方法 都 需要 重 载 GenericUDAFEvaluator 中 的 基础 的 定义 。 需 要 注意 ，terminate 方法 返回 的 
值 必须 是 实现 了 org.apache.hadoop.io.WritableComparable 接口 的 对 象 ， 否 则 ， 在 运行 
MapReduce 的 时 候 ，Hadoop 无 法 识别 。 关 于 其 他 的 内 容 ， 读 者 可 以 自行 研究 。 

打包 、 上 传 、 添 加 函数 的 方法 与 简单 UDAF 相同 。 运 行 之 后 结果 如 下 : 








hive> create temporary function getGenericConcat as 
'com.hive.udaf.GenericConcat'; 

OK 

Time taken: 0.029 seconds 

hive> select getGenericConcat (financestatus) from financedata where 
p date-20160101 group by company id limit 5; 

OK 

NORMAL, NORMAL, NORMAL, NORMAL, NORMAL, NORMAL 

NORMAL, NORMAL, NORMAL, NORMAL, NORMAL, NORMAL, NORMAL 

NORMAL, NORMAL, NORMAL, NORMAL, NORMAL, NORMAL, NORMAL, NORMAL, NORMAL, 
NORMAL, NORMAL 

NORMAL, NORMAL, NORMAL, NORMAL, NORMAL, NORMAL 

NORMAL, NORMAL 

Time taken: 32.515 seconds, Fetched: 10 row(s) 


更 多 的 关于 如 何 写 好 UDAF 的 介绍 ， 可 以 参考 如 下 地 址 : 


https://cwiki.apache.org/confluence/display/Hive/GenericUDAFCaseStudy 


9.5.3 UDTF 


上 面 讲解 的 UDAF 是 将 一 张 表 或 者 经 过 GROUP BY 之 后 的 一 个 分 组 的 数据 加 以 处 理 的 


函数 。 本 节 要 讲 的 UDTF 则 用 来 解决 输入 一 行 输出 多 行 的 问题 。 


要 编写 UDTF， 需 要 继承 org.apache.hadoop.hive.ql.udf.generic.GenericUDTF 抽象 类 ， 实 


现 initialize, process, close 三 个 方法 。 下 面 结合 一 个 对 字符 串 进 行 分 隔 的 例子 来 做 讲解 。 


我 们 要 做 的 是 这 样 的 一 个 功能 : 将 一 个 key-value 形式 存储 的 数据 的 内 容 解 析出 来 ， 并 


分 割 成 不 同 的 行 。key 和 value 中 间 是 使 用 “:” 分 隔 的 ， 不 同 的 key-value 之 间 是 使 用 “;” 
分 隔 的 。 比 如 maths:98:chinese:87:music:73 表示 的 是 一 个 学 生 每 门 课 的 成 绩 。 当 我 们 要 计算 
学 生 的 平均 分 的 时 候 , 或 者 每 门 课程 的 平均 分 的 时 候 , 需要 将 这 些 数 据 解析 成 “课程 ”-“ 分 
数 ” 对 ， 才 能 计算 。 下 面 我 们 来 看 UDTF 是 怎样 实现 的 ， 假 如 我 们 完成 一 个 ExplodeString 
的 类 来 完成 这 项 工作 。 





1. initialize 
initialize 用 来 做 变量 的 初始 化 ， 以 及 用 户 在 使 用 函数 之 前 的 参数 和 结果 的 判断 。 这 个 方 


法 的 输入 参数 是 ObjectInspector， 表 示 的 是 我 们 在 HiveSQL 中 使 用 explodeString 的 时 候 传 
入 的 参数 ， 方法 的 返回 值 是 StructObjectInspector， 表 示 用 户 调用 explodeString 的 返回 值 。 
它 与 抽象 类 GenericUDTF 一 样 ，initialize 可 以 抛 出 UDFArgumentException 。 


我 们 在 initialize 中 判断 参数 值 符合 两 个 条 件 ， 一 是 参数 个 数 只 能 是 一 个 (这 个 字段 里 面 








E 


存储 的 就 是 要 分 隔 的 字符 串 )， 二 是 参数 必须 是 基本 的 String 类 型 。 


其 中 ，UDFArgumentLengthException 是 UDFArgumentException 的 子 类 。 
函数 返回 的 只 有 两 个 String 类 型 的 字段 ， 我 们 把 它们 叫 作 coll 和 col2 。 
最 后 通过 getStandardStructObjectInspector 方法 来 获取 StructObjectInstpector 对 象 ， 作 为 





函数 的 返回 值 。 





GOverride 
public StructObjectInspector initialize(ObjectInspector[] args) 
throws UDFArgumentException { 
if (args.length !- 1) ( 
throw new UDFArgumentLengthException( 
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"Explodestring takes only one argument"); 
} 
if (args[0].getCategory() != ObjectInspector.Category.PRIMITIVE) { 
throw new UDFArgumentException( 
"ExplodeString takes string as a parameter"); 
} 
ArrayList«String» fieldNames = new ArrayList«String»(); 
ArrayList«ObjectInspector» fieldOIs = new ArrayList«ObjectInspector»(); 
fieldNames.add ("coll"); 
fieldOIs.add( 
PrimitiveObjectInspectorFactory.javaStringObjectInspector); 
fieldNames.add("col2"); 
fieldOIs.add( 
PrimitiveObjectInspectorFactory.javaStringObjectInspector); 
return ObjectInspectorFactory.getStandardStructObjectInspector( 
fieldNames, fieldOIs); 


2. process 

process 方法 就 是 实际 完成 UDTF 工作 内 容 的 方法 。 它 的 输入 参数 args 就 是 UDTF 在 实 
际 运行 时 的 数据 的 值 。 但 是 ， 它 的 没有 返回 值 ， 那 它 的 结果 是 怎么 输出 的 呢 ， 可 以 看 到 下 
面 代码 中 有 一 行 forward， 就 是 在 遇 到 需要 输出 的 一 行 结束 的 时 候 ， 就 是 用 forward 传递 给 
框架 作为 UDTE 的 输出 。 与 父 类 一 样 ， 可 以 抛 出 HiveException。 

在 process 的 业务 逻辑 里 面 ， 我 们 做 的 事情 就 是 按照 “;” 来 将 字符 串 作为 第 一 级 分 隔 ， 
然后 对 于 分 隔 的 所 有 结果 ， 按 照 “:” 作 为 第 二 级 分 隔 。 并 将 每 个 第 二 级 分 隔 的 result 当 作 
一 行 的 结果 ，forward 返回 给 框架 。 


GOverride 
public void process(Object[] args) throws HiveException ( 
String input - args[0].toString(); 





String[] test = input.split(";"); 
for (int i-0; i«test.length; i++) ( 
try ( 


String[] result - test[i].split(":"); 
forward (result); 

) catch (Exception e) ( 
continue; 

H 


) 


3. close 

在 close 方法 中 ， 对 需要 清理 的 内 容 进行 清理 。 我 们 这 个 示例 中 的 close 方法 体 是 空 的 。 

更 详细 的 内 容 ， 读 者 可 参考 udafExample 项 目 中 的 com.hive.udtf ExplodeString 类 。 

下 面 我 们 对 这 个 UDTF 加 以 测试 。 添 加 JAR 包 和 函数 的 过 程 与 上 面 一 样 ， 运 行 结 果 如 
下 所 示 。 我 们 看 到 ， 当 尝试 给 explodeString 多 个 输入 参数 的 时 候 ， 它 会 给 出 提示 。 


hive» create temporary function explodeString as 
'com.hive.udtf.ExplodeString'; 

OK 

Time taken: 0.029 seconds 

hive» load data local inpath '/home/work/opdir/abc' into table allScores 
partition(p date-'20160101'); 
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Loading data to table test.allscores partition (p date-20160101) 
Partition testdb.allscores(p date-20160101) stats: [numFiles-1, numRows-0, 
totalSize-100, rawDataSize-0] 

OK 

Time taken: 1.391 seconds 

hive» select * from allScores; 

OK 

Xiaoming maths:98;chinese:87;music:73 20160101 

xiaohong maths:85;chinese:69;sports:99 20160101 

lilei arts:95;maths:59 20160101 

Time taken: 0.365 seconds, Fetched: 3 row(s) 

hive» select explodeString(student,scorelist) as (coll,col2) from allScores 
where p date-'20160101'; 

FAILED: UDFArgumentLengthException ExplodeString takes only one argument 
hive» select explodeString(scorelist) as (coll,col2) from allScores where 
p date-'20160101'; 


OK 

maths 98 
chinese 87 
music 73 
maths 85 
chinese 69 
Sports 99 
arts 95 
maths 59 


Time taken: 0.177 seconds, Fetched: 8 row(s) 


另外 ， 需 要 注意 ， 在 使 用 UDTF 函数 的 时 候 ， 不 能 添加 其 他 字段 一 起 使 用 。 如 果 需 要 
多 个 字段 的 话 ， 可 以 使 用 lateral view， 如 下 : 


hive» select student, explodedScores.course, explodedScores.score from 
allScores lateral view explodeString(scorelist) explodedScores as course, 
Score where p date-'20160101'; 

OK 

xiaoming maths 98 

xiaoming chinese 87 

xiaoming music 73 

xiaohong maths 85 

xiaohong chinese 69 

xiaohong sports 99 

lilei arts 95 

lilei maths 59 

Time taken: 0.265 seconds, Fetched: 8 row(s) 


因此 ， 计 算 一 个 学 生 的 平均 分 ， 就 可 以 这 样 做 : 


hive> select student, avg(score) from (select student, explodedScores.course, 
explodedScores.score from allScores lateral view explodeString(scorelist) 
explodedScores as course, score where p date-'20160101') a group by student; 
Query ID = work 20160422233302 ff830a00-dd6a-493c-977e-75bf174fa586 
Total jobs = 1 
Launching Job 1 out of 1 
Number of reduce tasks not specified. Estimated from input data size: 1 
In order to change the average load for a reducer (in bytes): 

set hive.exec.reducers.bytes.per.reducer-«number» 
In order to limit the maximum number of reducers: 

set hive.exec.reducers.max-«number» 
In order to set a constant number of reducers: 

set mapreduce.job.reduces-«number» 
Starting Job - job 1461381026752 0001, Tracking URL - 
http://localhost:8088/proxy/application 1461381026752 0001/ 
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Kill Command = /home/work/hadoop-2.6.2/bin/hadoop job -kill 

job 1461381026752 0001 

Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 
1 

2016-04-22 23:33:23,320 Stage-1 map = 0$, reduce = 0$ 

2016-04-22 23:33:34,864 Stage-1 map = 100$, reduce = 0$, Cumulative CPU 1.32 
sec 

2016-04-22 23:33:48,367 Stage-1 map = 100$, reduce = 100$, Cumulative CPU 
3,17 sec 

MapReduce Total cumulative CPU time: 3 seconds 170 msec 

Ended Job - job 1461381026752 0001 

MapReduce Jobs Launched: 

Stage-Stage-1: Map: 1 Reduce: 1 Cumulative CPU: 3.17 sec HDFS Read: 10338 
HDFS Write: 52 SUCCESS 

Total MapReduce CPU Time Spent: 3 seconds 170 msec 

OK 

lilei 77.0 

xiaohong 84.33333333333333 

xiaoming 86.0 

Time taken: 48.098 seconds, Fetched: 3 row(s) 


9.6 Hive 的 高 级 使 用 


9.6.1 视图 


在 传统 数据 库 中 (如 MySQL)， 会 允许 用 户 建立 视图 ， 简 单 理 解 ， 就 是 以 一 定 的 视角 来 
查看 数据 。 视 图 的 结构 与 原始 表 的 结构 不 相同 ， 但 是 ， 视 图 的 数据 不 做 真实 的 存储 ， 只 是 
为 了 方便 用 户 通过 某 种 视角 来 使 用 数据 。 

Hive 里 面 的 视图 (VIEW) 与 传统 数据 库 中 的 视图 类 似 ， 在 Hive 0.6 版 本 及 以 上 都 可 以 使 
用 。Hive 的 视图 具有 如 下 特点 。 

() VIEW 是 逻辑 存在 ，Hive 暂 不 支持 物化 视图 。 一 般 来 说 ， 当 有 查询 使 用 到 VIEW 
的 时 候 ，Hive 会 执行 对 应 的 SQL 来 生成 结果 集 ， 以 备 进一步 查询 (实际 上 ，Hive 会 把 VIEW 
的 语句 和 针对 它 的 查询 放 在 一 起 ， 来 进一步 处 理 )。 

Q) VIEW Kit, 不 支持 LOAD、INSERT、ALTER 这 些 对 数据 的 修改 操作 。 在 需要 改 
变 VIEW 定义 的 时 候 ， 可 以 使 用 ALTER VIEW。 

(3) Hive 支持 迭代 视图 。 


1. 创建 视图 
创建 视图 的 语法 如 下 : 
CREATE VIEW [IF NOT EXISTS] [db name.] view name [(column name [COMMENT 
column comment], ...)] 
[COMMENT view comment] 
[TBLPROPERTIES (property name = property value, ...)] 
AS SELECT ...; 





VIEW 自 创 建 那 一 刻 开始 ， 其 定义 就 被 固定 下 来 ， 而 不 能 再 改变 了 。 
VIEW 内 可 以 包含 ORDER BY、LIMIT 子 句 ， 假 如 一 个 针对 VIEW 的 查询 也 包含 这 些 
语句 ， 则 VIEW 中 的 语句 优先 级 高 。 例 如 ， 定 义 VIEW 数据 为 LIMIT 10， 针 对 VIEW 的 查 
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询 为 LIMIT 20， 则 最 多 返回 10 条 数据 。 

在 Hive 0.13.0 以 上 的 版 本 中 ， 在 VIEW 的 SELECT 子 句 中 ， 可 以 使 用 一 个 或 者 多 个 公 
用 的 表达 式 。 

下 面 是 一 个 创建 视图 的 例子 ， 这 里 是 为 了 方便 地 使 用 business 类 型 的 用 户 信息 ， 通 过 
JOIN 的 方式 建立 了 一 个 视图 : 


CREATE VIEW IF NOT EXISTS business user AS 
SELECT people.* FROM user JOIN cart 
ON (cart.user id-user.id) WHERE cart.type-'business'; 


2. 删除 视图 
删除 视图 的 语法 如 下 : 
DROP VIEW [IF EXISTS] [db name.] view name; 


如 果 被 删除 的 视图 已 经 被 其 他 视图 引用 了 ，Hive 不 会 给 出 警告 ， 直 到 用 户 发 现 依赖 它 
的 视图 也 只 能 被 删除 了 为 止 。 


3. 修改 视图 
Hive 允许 修改 视图 的 基本 属性 : 


ALTER VIEW [db name.]view name SET TBLPROPERTIES table properties; 


Hir, table properties 是 由 多 个 key-value 对 组 成 的 (property_name = property value, 
property name = property value, .….)。 例 如 : 


ALTER VIEW shipments SET TBLPROPERTIES 
('created at' = '2016-01-01 00:00:00'); 


在 Hive 0.11 以 上 的 版 本 中 ， 运 行 修改 视图 关联 的 SELECT 子 句 。 修 改 了 视图 关联 的 
SELECT 子 句 ， 就 相当 于 修改 了 视图 的 定义 。 这 个 语法 与 创建 视图 (CREATE VIEW 或 者 
CREATE OR REPLACE VIEW) 的 效果 类 似 。 语 法 如 下 : 


ALTER VIEW [db name.]view name AS select statement; 


更 多 关于 Hive 视图 的 介绍 参见 如 下 地 址 : 


https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL# 
LanguageManualDDL-Create/Drop/AlterView 


9.6.2 索引 


在 Hive 0.7 以 上 的 版 本 中 ， 支 持 在 一 张 表 上 建立 索引 ;, Æ Hive 0.8.0 以 上 的 版 本 中 ， 可 
以 使 用 位 图 索引 。 

在 Hive 表 上 建立 索引 的 目标 是 改善 基于 一 张 表 的 某 些 列 的 查询 性 能 ， 比 如 ， 对 于 条 件 
“WHERE tabl.coll = 10"， 如 果 没 有 索引 ， 则 执行 SQL 的 时 候 ， 需 要 全 表 扫 描 ， 如 果 有 了 基 
于 coll 的 索引 ， 则 只 需要 加 载 和 处 理 需 要 处 理 的 那 部 分 数据 即 可 。 当 然 ， 因 为 创建 索引 后 
需要 对 表 中 原始 的 数据 做 预 处 理 ， 所 以 ， 这 里 会 有 预先 处 理 的 开销 以 及 存储 空间 的 开销 。 
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1. 创建 索引 


在 Hive 0.13 以 上 的 版 本 中 ， 索 引 的 名 称 都 是 大 小 写 敏感 的 ， 但 是 推荐 使 用 全 小 写 。 
在 一 张 Hive 表 上 创建 索引 的 语法 如 下 : 
CREATE INDEX index name 
ON TABLE base table name (col name, ...) 
AS index type 
[WITH DEFERRED REBUILD] 
[IDXPROPERTIES (property name-property value, ...)] 
[IN TABLE index table name] 
[PARTITIONED BY (col name, ...)] 
[ 
[ROW FORMAT ...] STORED AS ... 
| STORED BY ... 
] 
[LOCATION hdfs path] 
[TBLPROPERTIES (...)] 
[COMMENT "index comment"]; 


如 果 指 定 了 WITH DEFERRED REBUILD 语句 ， 则 索引 创建 时 是 空 的 ， 之 后 可 以 通过 
“ ALTER INDEX ... REBUILD” 在 一 个 partition 上 或 所 有 partition 上 构建 索引 。INDEX 的 
partition 默认 和 表 的 partition 是 一 致 的 ， 如 果 指 定 了 partition by 子 句 ， 则 相当 于 指定 了 这 个 
表 的 partition 列 的 子 集 ， 其 中 ， 每 个 partition 列 的 所 有 值 都 将 建立 索引 。 
在 视图 上 不 能 创建 索引 。 


可 以 通过 STORED AS 或 者 STORED BY 来 指定 索引 的 存储 格式 ， 当 然 ， 某 些 必须 使 
用 某 种 格式 的 索引 除外 。 


2. 删除 索引 
删除 索引 的 语法 如 下 : 
DROP INDEX [IF EXISTS] index_name ON table name; 


如 果 读 者 没有 使 用 IF EXISTS, 但 是 希望 在 没有 索引 的 时 候 不 会 报错 , 可 以 在 配置 文件 
中 把 hive.exec.drop.ignorenonexistent 设置 为 true。 


3. 修改 索引 
修改 索引 的 语法 如 下 : 


ALTER INDEX index name ON table name [PARTITION partition spec] REBUILD; 





这 条 语句 会 重新 构建 一 个 由 WITH DEFERRED REBUILD 声明 的 索引 ， 或 者 重新 构建 
一 个 先前 已 经 创建 好 的 索引 , 如 果 指 定 了 partition, 则 只 有 被 指定 的 partition 会 被 重新 构建 。 

应 该 注意 如 下 两 点 。 

(1) 当 Hive 数据 更 新 时 ， 必 须 调 用 该 语句 更 新 索引 。 

(2) index rebuild 操作 是 原子 操作 ， 因 此 ，rebuild 失败 时 ， 先 前 的 索引 也 无 法 使 用 了 。 


9.6.3 ”权限 
Hive 的 授权 机 制 并 不 是 绝对 安全 的 ， 它 的 目的 只 是 保证 正常 使 用 的 用 户 不 会 误 操作 ， 
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但 并 不 能 防止 恶意 用 户 钻 空子 。 如 果 要 使 用 Hive 的 权限 管理 功能 ， 需 要 在 hive-site.xml 中 
设置 如 下 两 个 选项 : 


<property> 
«name»hive.security.authorization.enabled«/name» 
«value»true«/value» 
«description» 
enable or disable the hive client authorization 
«/description» 
</property> 
<property> 
«name»hive.security.authorization.createtable.owner.grants«/name» 
«value»ALL«/value» 
«description» 
the privileges automatically granted to the owner whenever a table 
gets created. 
An example like "select,drop" will grant select and drop privilege 
to the owner of the table 
«/description» 
</property> 


hive.security.authorization.createtable.owner.grants 默认 是 NULL， 建 议 将 其 设置 成 ALL， 
这 样 ， 用 户 才能 够 访问 自己 创建 的 表 。 

Hive 授权 的 核心 就 是 用 户 、 组 、 角 色 。 

如 果 相 对 三 个 用 户 分 别 赋予 数据 库 1、 数据 库 2、 数 据 库 1 和 2 的 权限 ， 则 做 法 可 以 如 
图 9-4 所 示 。 设 置 两 个 角色 : 角色 X 和 角色 Y， 分 别 对 应 数据 库 1 和 数据 库 2 的 权限 。 然 
后 设置 组 A 和 组 B， 并 把 用 户 A 和 用 户 B 分 配 到 组 A 和 组 B。 之 后 ， 设 置 角色 Z， 指 向 角 
色 X 和 角色 Y， 之 后 设置 组 C， 并 把 用 户 C 设置 为 组 C 中 的 用 户 。 

















用 户 A 

Een) 
APB 
用 户 C 














图 9-4 Hive 的 授权 


在 hive-site.xml 中 ， 可 以 配置 属性 hive.security.authenticator manager， 它 就 是 管理 用 户 
和 组 的 一 个 接口 ， 默 认 使 用 org.apache.hadoop.hive.ql.security.HadoopDefaultAuthenticator( 如 
果 我 们 要 自 定 义 鉴别 方式 的 话 ， 都 需要 实现 这 个 接口 ) 来 做 用 户 以 及 组 权限 的 判定 。 当 客户 
端 连接 Hive 元 数据 库 执 行 一 个 查询 请 求 的 时 候 ， 元 数据 库 就 会 确定 发 送 过 来 请 求 的 用 户 和 
他 所 在 的 组 ， 之 后 对 比 执行 请 求 需要 的 权限 和 用 户 具 有 的 权限 ， 就 可 以 决定 这 个 用 户 是 否 
有 权限 访问 相应 的 元 信息 。 元 数据 库 对 比 权 限 的 时 候 , 先 会 判断 执行 Hive 操作 需要 的 权限 ， 
只 要 下 面 几 项 中 满足 一 种 即 可 : 
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e ”用 户 被 赋予 了 这 个 权限 。 

e ”用 户 所 属 的 任何 一 个 组 具有 这 个 权限 。 

e ”用 户 具有 的 角色 ， 或 者 用 户 所属 任 何 一 个 组 具有 的 角色 具有 这 个 权限 。 

需要 注意 ，Hive 只 是 控制 了 元 数据 的 权限 ， 是否 具有 HDFS 的 权限 ， Æ Hadoop 的 权限 
系统 控制 的 。 如 下 这 种 情况 可 能 会 发 生 : 一 个 用 户 发 出 了 操作 请 求 ， 他 具有 Hive 元 数据 的 
BUR, (Hifi HDFS 的 权限 。 如 果 HDFS 上 的 文件 被 手动 修改 过 ， 但 修改 的 时 候 没 有 关注 
权限 ， 就 有 可 能 会 出 现 这 种 情况 。 

创建 、 删 除 角色 的 方法 如 下 : 


CREATE ROLE role name 
DROP ROLE role name 


授予 角色 、 取 消 角 色 、 查 看 角色 的 方法 如 下 : 

GRANT ROLE role name[, role name] ... TO principal specification[, 

principal specification] ... 

[WITH ADMIN OPTION] 

REVOKE [ADMIN OPTION FOR] ROLE role name[, role name] ... FROM 

principal specification[, principal specification] ... 

SHOW ROLE GRANT principal specification 

其 中 ，principal specification 可 以 是 USER user 或 者 GROUP group 或 者 ROLE role. fi 
用 GRANT ROLE 方法 给 组 分 配 权 限 的 功能 只 有 管理 员 才 能 操作 。 

在 Hive 里 面 ， 权 限 可 以 细 分 为 如 下 这 几 类 。 

(1) ALL: 所 有 权限 。 

(2) ALTER: 允许 修改 元 数据 (modify metadata data of object) 一 一 表 信 息 数据 。 

(3) UPDATE: 允许 修改 物理 数据 (modify physical data of object) 一 一 实际 数据 。 

(4) CREATE: 允许 进行 Create 操作 。 

(5) DROP: 允许 进行 DROP 操作 。 

(6) INDEX: 人 允许 建 索引 (目前 还 没有 实现 )。 

(7 LOCK: 当 出 现 并 发 使 用 时 ， 人 允许 用 户 进行 LOCK fil UNLOCK 操作 。 

(8) SELECT: 允许 用 户 进行 SELECT 操作 。 

(9) SHOW_DATABASE: 允许 用 户 查 看 可 用 的 数据 库 。 

其 中 ， 最 常用 的 是 ALL. SELECT. CREATE 这 几 类 权限 。 同 样 ， 这 些 具体 的 权限 都 
可 以 分 配给 用 户 、 角 色 或 组 。 

经 过 以 上 的 讲解 ， 我 们 可 以 认为 : 在 Hive 的 权限 管理 中 ， 用 户 、 角 色 和 组 都 是 权限 的 
集合 。 更 多 详细 的 内 容 ， 读 者 可 以 查看 : 


https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL# 
LanguageManualDDL-Create/Drop/Grant/RevokeRolesandPrivileges 























9.64 Thrift 服务 


Thrift 是 Facebook 开发 的 一 个 软件 框架 ， 它 用 来 进行 可 扩展 且 跨 语言 的 服务 的 开发 ， 
Hive 集成 了 该 服务 ， 能 让 不 同 的 编程 语言 的 远程 客户 端 连接 Hive。 目 前 的 Hive Thrift 服务 
是 改进 的 HiveServer 服务 ， 支 持 多 个 客户 端的 并 发 以 及 认证 。 本 来 的 理想 设计 是 提供 类 似 
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F ODBC 或 者 JDBC 类 的 客户 端 API 服务 。 

到 现在 为 止 , 已 经 有 很 多 用 户 报 告 了 Hive Server 在 并 发 方面 的 Bug. 使 用 现在 的 Thrift 
机 制 来 支持 并 发 的 连接 是 不 现实 的 , 所 以 Hive 并 不 提供 服务 端的 会 话 保持 机 制 。 因此 , Hive 
也 就 不 能 区 分 连接 请 求 属 于 哪个 已 经 连接 的 客户 端的 请 求 。 现 在 有 一 些 在 这 方面 的 努力 ， 
感 兴趣 的 读者 可 以 阅读 下 面 的 链接 : 


https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Thrift+API 
































1. Thrift 服务 配置 


在 hive-site.xml 中 可 以 配置 如 下 的 变量 。 

€  hiveserver2 thrift.min.worker.threads: 最 小 的 工作 线程 数 ， 默 认 是 5。 

€ hive.server2.thrift.max.worker.threads: 最 大 的 工作 线程 数 ， 默 认 是 500。 

€  hiveserver2.thrifport: 监听 的 TCP 端口 ， 默 认 是 10000. 

€ hive.server2.thrift.bind.host: 绑 定 的 TCP 地 址 。 

可 以 使 用 环境 变量 来 覆盖 hive-site.xml rf): HIVE SERVER2 THRIFT BIND HOST 
和 HIVE SERVER2_ THRIFT PORT， 分 别 可 以 用 来 指定 TCP 地 址 和 监听 端口 。 


2. 启动 Thrift 服务 
启动 Thrift 的 服务 很 简单 ， 有 下 面 两 种 方式 : 


$HIVE HOME/bin/hiveserver2 
$HIVE HOME/bin/hive --service hiveserver2. 


可 以 使 用 --hiveconf <property=value> 这 种 方式 来 指定 配置 参数 值 ， 例 如 : --hiveconf 
hive.server2.thrift.port-10001 . 


3. beeline 访问 


beeline 是 一 个 JDBC 客户 端 ， 它 有 嵌入 模式 和 远程 模式 两 种 工作 模式 。 在 嵌入 模式 中 ， 
它 的 工作 方式 与 Hive 命令 行 类 似 ， 在 远程 模式 中 ， 它 可 以 连接 一 个 单独 的 Thrift 服务 。 可 
以 在 这 里 找到 它 : SHIVE HOME/bin/beeline. 

启动 beeline 之 后 ， 可 以 通过 如 下 方式 连接 Thrift 服务 : 

beeline» !connect jdbc:hive2://«host»:«port»/«db»;auth-noSasl hiveuser pass 


org.apache.hive.jdbc.HiveDriver 


比如 : 


beeline» !connect jdbc:hive2://localhost:10000 
Connecting to jdbc:hive2://localhost:10000 

Enter username for jdbc:hive2://localhost:10000: work 
Enter password for jdbc:hive2://localhost:10000: 

0: jdbc:hive2://localhost:10000 (closed)» show databases; 


4-------------------- * 
| Database | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| default | 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


1 rows in set (0.00 sec) 


beeline 连接 了 Thrift 服务 后 ， 就 可 以 正常 地 执行 HiveSQL 了 。 


«4 从 基础 理论 到 最 佳 实践 


对 于 beeline 的 使 用 ， 本 书 不 做 详细 介绍 ， 感 兴趣 的 读者 可 以 自行 学 习 。 
4. Java 代码 访问 
Thrift 服务 很 适合 Java 编程 人 员 通 过 jdbc 接口 去 访问 Hive， 例 如 下 面 的 代码 : 


TTransport transport = new TSocket("192.168.1.1", 10000); 
TProtocol protocol - new TBinaryProtocol (transport); 
ThriftHive.Client client - new ThriftHive.Client (protocol); 


transport.Open(); 
client.execute ("select * from pageview where dt = '2012-09-10' limit 10"); 
Console.WriteLine("the result is:"); 


var items - client.fetchAll(); 
foreach (var item in items) 
t 

Console.WriteLine (item); 
) 
transport.Close(); 
Console.ReadLine(); 


当然 , 一 般 我 们 在 Java 项 目 中 都 会 有 一 个 通用 的 通过 JDBC 接口 执行 Hive 操作 的 基础 
类 。 这 也 是 我 们 自动 调度 数据 平台 的 基础 。 


9.7 ”使 用 Hive 构建 数据 仓库 


在 第 8 章 中 , 我 们 一 起 学 习 了 数据 仓库 的 基础 知识 , 读者 对 它 有 了 基础 的 了 解 。 而 Hive 
就 是 构建 数据 仓库 的 常用 框架 ， 目 前 已 经 成 为 各 大 公司 构建 数据 仓库 的 事实 标准 。 本 节 以 
一 个 抽象 但 具有 事实 意义 的 小 例子 ， 来 给 读者 讲解 数据 仓库 的 常见 构造 方法 。 


9.7.1 原始 数据 和 结构 


假如 我 们 面 对 的 是 这 样 一 个 业务 : 一 个 移动 应 用 在 推广 出 去 之 后 ， 用 户 数 和 数据 量 都 
有 明显 的 增多 ， 每 天 都 产生 了 大 量 的 日 志 在 HDFS 中 。 数 据 从 业务 产品 流入 到 日 志 中 的 办 
法 主要 有 : 使 用 开源 框架 或 者 商业 数据 平台 打 日 志 、 使 用 实时 数据 传输 和 接收 框架 来 传递 
和 接收 日 志 ( 参 见 本 书 实时 数据 部 分 ) 等 ， 这 里 ， 我 们 不 做 详细 的 讨论 。 

在 这 个 移动 应 用 中 ， 会 有 多 种 客户 端 操作 的 类 别 ， 如 安装 应 用 、 务 载 应 用 、 打 开 应 用 、 

查看 应 用 的 某 个 页 面 、 点 击 应 用 中 的 某 个 位 置 、 在 某 个 地 方 停留 了 多 长 时 间 、 应 用 毅 省 信 
息 等 。 具 体 要 打印 哪些 发 生 在 APP 中 的 事件 以 及 事件 的 属性 ， 是 根据 业务 发 展 的 状态 ， 以 
及 产品 和 分 析 需 求 来 设计 的 。 我 们 在 这 个 练习 中 ， 只 关注 两 个 事件 : 用 户 启动 和 点 击 页 面 ， 
并 且 只 关注 这 两 个 事件 中 非常 有 限 的 几 个 事件 的 属性 , 另外 , 会 有 一 张 从 业务 MySQL EE 
面 获取 的 数据 表 。 
(1) 在 用 户 启动 事件 中 ， 我 们 只 关注 : 用 户 的 设备 ID， 即 User Device ID， 简 称 udid; 
注册 用 户 的 ID， 即 UserID, ffx uid; 用 户 使 用 的 APP 版 本 ， 简 称 app_version; 用 户 手机 
的 操作 系统 ， 如 Android. iOS 等 。 

(2) 在 用 户 点 击 事件 中 ， 我 们 只 关注 : 点 击 页 面 的 udid 和 点 击 页 面 的 URL. 
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(3) 由 于 分 析 的 时 候 ， 我 们 会 很 关心 在 不 同 级 别 的 注册 用 户 的 表现 (可 能 会 根据 用 户 付 
费 ， 或 者 停留 时 间 等 ， 给 用 户 划分 级 别 )， 因 此 ， 我 们 需要 从 业务 MySQL 库 里 面 获 取 注 册 
用 户 和 它 的 级 别 的 信息 。 

我 们 虚构 的 数据 信息 已 经 在 附件 的 压缩 包 中 ， 读 者 可 以 自行 获取 ， 之 后 ， 读 者 可 以 详 
细 读 一 下 数据 的 内 容 ， 然 后 我 们 可 以 将 数据 按照 如 下 的 方式 加 载 到 Hive 中 ， 假 如 说 我 们 已 
经 把 数据 放 在 了 /tmp/dwdata 目录 下 ， 接 下 来 把 数据 LOAD 到 app. dw 库 中 。 


USE app dw; 
CREATE TABLE IF NOT EXISTS dw launch raw( 
udid STRING, 
uid STRING, 
app version STRING, 
os STRING) 
PARTITIONED BY (p date STRING) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
LINES TERMINATED BY '\n'; 





CREATE TABLE IF NOT EXISTS dw click raw( 
uid STRING, E x 
url STRING) 
PARTITIONED BY (p date STRING) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
LINES TERMINATED BY 'An'; 


CREATE TABLE IF NOT EXISTS reg user info( 
uid STRING, 
user level int) 
PARTITIONED BY (p date STRING) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
LINES TERMINATED BY '\n'; 


LOAD DATA INPATH '/tmp/dwdata/dw launch raw' INTO TABLE dw launch raw 
PARTITION (p date-20160101); 

LOAD DATA INPATH '/tmp/dwdata/dw click raw' INTO TABLE dw click raw 
PARTITION (p date-20160101); 

LOAD DATA INPATH '/tmp/dwdata/reg user info' INTO TABLE reg user info 
PARTITION (p date-20160101); 


加 载 数 据 完成 后 ， 读 者 可 自行 验证 ， 是 否 三 张 表 里 面 的 数据 都 已 经 有 了 。 

注意 ， 我 们 每 张 表 都 会 使 用 p date 作为 分 区 字段 。 因 为 date 可 能 会 在 某 些 框架 中 作为 
关键 字 ， 故 在 每 次 使 用 的 时 候 ， 都 需要 使 用 反 引 号 括 起 来 ， 导 致使 用 繁琐 ， 所 以 我 们 直接 
在 前 面 添加 p_ 作 为 前 级 ， 表 明 是 一 个 PARTITION 字段 。 另 外 ， 对 于 日 志 表 ， 一 般 都 会 有 
至 少 一 个 分 区 字段 来 对 不 同日 期 的 数据 加 以 分 隔 ， 还 有 些 业 务 场景 会 使 用 多 个 分 区 字段 来 
分 隔 不 同 的 数据 内 容 。 值 得 注意 的 是 : 对 于 reg user info 这 张 表 来 说 ， 并 不 是 日 志 ， 实 际 
E, 它 是 一 个 维度 表 ( 或 者 叫 配置 表 ), 来 自 业 务 库 。 这 里 可 能 还 会 涉及 一 个 叫 “ 缓 慢 变化 维 ” 
的 问题 ， 读 者 可 自行 阅读 本 书 前 面 数据 仓库 部 分 的 理论 ， 对 于 其 中 的 解决 方式 也 可 以 根据 
业务 场景 有 不 同 的 解决 方案 ， 我 们 这 里 简单 地 使 用 P_date 来 做 不 同日 期 的 分 割 。 

注意 ,上面 是 为 了 方便 我 们 做 练习 ， 直接 将 数据 加 载 到 Hive 库 中 ,实际 的 应 用 场景 中 ， 
并 不 一 定 是 通过 这 种 方式 加 载 的 。 有 可 能 是 通过 一 个 单独 开发 的 模块 写 入 的 ， 也 有 可 能 是 
通过 Sqoop 这 种 框架 将 MySQL 的 数据 导入 Hive， 具 体 的 数据 入 库 方式 ， 根 据 数据 仓库 工 
有 具 、 所 在 组 织 的 规范 ， 以 及 业务 场景 的 不 同 ， 会 有 不 同 的 情况 。 这 里 我 们 无 法 详尽 阐述 。 
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9.7.2 ”数据 需求 和 模型 设计 


在 这 个 示例 中 ， 我 们 期 望 能 获取 每 个 级 别 的 launch 用 户 的 总 用 户 数 和 总 点 击 情 况 。 因 
我 们 设计 的 结果 表 有 用 户 级 别 、 用 户 数 、 点 击 情况 三 个 非 分 区 字段 。 


CREATE TABLE IF NOT EXISTS dwr sum info( 
user level int, 
user count bigint, 
click count bigint) 
PARTITIONED BY (p date STRING) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
LINES TERMINATED BY '\n'; 


为 了 汇总 出 这 个 结果 ， 我 们 可 以 直接 从 原始 的 raw 日 志和 reg user info 表 关 联 得 到 ， 
但 是 细心 的 读者 可 能 会 发 现 ， 在 我 们 给 出 的 日 志 数 据 里 面 会 有 很 奇怪 的 现象 : 

© dw launch raw 数据 中 ， 第 一 个 字段 出 现 很 多 NULL 的 情况 。 

© dw launch raw 数据 的 第 二 个 字段 有 很 多 为 0。 

€ dw launch raw 数据 中 ， 大 部 分 数据 行 的 第 4 个 字段 是 android 或 者 ios， 会 有 个 别 

行 这 个 字段 是 Android。 

© dw launch raw 数据 中 会 有 多 个 重复 的 行 。 

© dw click raw 里 面 会 有 个 别 行 的 第 二 个 字段 ( 即 点 击 的 页 面 ) 是 空 的 。 

值得 庆幸 的 是 ， 从 MySQL 库 中 导入 进来 的 reg. user info 数据 暂时 没有 发 现 问 题 。 

为 什么 会 发 现 数据 有 这 么 多 问题 呢 ? 因为 每 个 业务 的 上 线 运行 ， 都 会 依赖 于 很 多 工程 
师 开发 的 后 台 模块 ， 模 块 之 间 的 关系 会 比较 复杂 ， 模 块 运行 的 网 络 情况 、 设 备 情 况 也 是 多 
种 多 样 的 ， 并 且 ， 当 用 户 量 巨 大 的 时 候 ， 我 们 不 可 预知 数据 传输 过 程 会 偶发 什么 问题 。 因 
此 ， 在 数据 仓库 中 ， 很 大 的 一 部 分 经 历 都 是 在 做 数据 清洗 ， 做 数据 规范 化 。 

但 是 应 注意 ， 对 于 dw launch raw 的 第 二 个 字段 为 0， 表 示 是 注册 用 户 的 ID 为 0， 这 
是 属于 正常 的 ， 因 为 并 不 是 所 有 的 用 户 都 是 注册 用 户 。 但 是 ， 第 一 个 字段 为 空 的 话 ， 则 表 
示 没 有 办 法 定位 一 个 设备 ， 则 是 不 正常 的 情况 。 
因此 ， 对 于 这 个 应 用 场景 ， 我 们 给 出 了 如 图 9-5 所 示 的 数据 模型 。 其 中 ， 最 下 层 是 我 们 
加 载 好 数据 的 那 一 层 ， 最 上 层 是 用 户 需求 的 表 。 中 间 层 就 是 我 们 加 入 的 数据 清洗 层 。 
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图 9-5 表 之 间 的 数据 流向 关系 
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有 的 读者 可 能 会 怀疑 为 什么 这 里 中 间 的 层次 结构 不 是 我 们 在 数据 仓库 章节 使 用 的 “ 轻 
度 汇总 ”? 数据 仓库 章节 里 面 ， 我 们 给 出 的 是 一 套 通用 的 层次 结构 设计 ， 而 遇 到 真实 的 业 
务 场景 的 时 候 ， 需 要 根据 需求 的 不 同 、 数 据 的 不 同 ， 对 模型 加 以 微调 。 这 种 微调 需要 更 多 
地 了 解 业务 ， 也 需要 更 多 地 了 解数 据 ， 在 此 基础 之 上 ， 才 能 设计 出 合理 的 模型 。 
这 里 我 们 给 出 的 模型 ， 主 要 是 增加 了 两 张 中 间 表 。 
(1) dws launch uniq 是 dw launch raw 的 一 个 清晰 和 简单 的 汇总 ， 在 这 里 ， 需 要 处 理 
所 说 的 几 个 问题 ， 而 且 需 要 对 udid 做 去 重 操 作 。 
(2) dws_click 是 dw click raw 的 一 个 简单 处 理 ， 去 掉 不 符合 条 件 的 记录 。 
这 两 张 表 的 结构 如 下 : 


CREATE TABLE IF NOT EXISTS dws launch uniq( 
udid STRING, 
uid STRING, 
app version STRING, 
os STRING) 
PARTITIONED BY (p date STRING) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
LINES TERMINATED BY '\n'; 








m 














CREATE TABLE IF NOT EXISTS dws click( 
uid STRING, E 
url STRING) 
PARTITIONED BY (p date STRING) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
LINES TERMINATED BY '\n'; 


仔细 看 图 9-5， 我 们 在 对 数据 表 做 层次 划分 的 时 候 ， 顺 便 对 其 命名 做 了 规范 ， 将 数据 分 
成 了 三 个 层次 : dw 层 、dws 层 (表示 汇总 、summarize)、dwr 层 ( 表 示 结 果 、result); 并 且 对 
去 重 的 表 在 最 后 增加 _uniq 做 标识 。 在 大 型 数据 仓库 的 建设 过 程 中 ， 需 要 有 明确 的 、 统 一 的 
规范 ， 对 表 和 字段 等 的 命名 和 使 用 方式 加 以 规范 ， 尽 量 见 名 知 义 ， 通 俗 易 懂 ， 便 于 给 数据 
仓库 的 使 用 方 提供 更 好 的 服务 。 


9.7.3 各 层次 数据 的 生成 


有 了 上 面 的 基础 数据 和 模型 设计 ， 下 面 就 是 具体 的 实施 了 。 我 们 直接 把 各 表 的 实现 方 
式 列 在 下 面 了 : 


INSERT OVERWRITE TABLE dws launch uniq PARTITION (p date-"20160101") 
SELECT B B z 
udid, 
uid, 
app_version, 
lower (os) 
FROM 
dw_launch_raw 
WHERE R 
p_date='20160101' 
AND udid is NOT NULL AND udid <> "NULL" AND udid <> "" 
GROUP BY udid, uid, app version, lower (os); 


经 过 这 样 处 理 后 ，dws_launch unig 表 一 共有 8080 条 记录 。 
INSERT OVERWRITE TABLE dws click PARTITION (p date-"20160101") 
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SELECT 
udid, 
url 
FROM 
dw click raw 
WHERE 
p date-'20160101' 
AND url IS NOT NULL AND url <> "NULL" AND url <> "" 


经 过 这 样 处 理 后 ，dws_click 表 一 共有 2699 条 记录 。 


INSERT OVERWRITE TABLE dwr sum info PARTITION (p date-"20160101") 
SELECT 
userinfo.user level, 
count (distinct userinfo.uid), 
sum(CASE WHEN click.udid IS NOT NULL THEN 1 ELSE 0 END) 
FROM 
(SELECT * FROM test.dws launch uniq WHERE p date-'20160101') launch 
JOIN (SELECT * FROM test.reg user info WHERE p date-'20160101') userinfo 
ON (launch.uid - userinfo.uid) 
LEFT OUTER JOIN (SELECT * FROM test.dws click WHERE p date-'20160101') 
click ON (launch.udid = click.udid) 
GROUP BY 
userinfo.user level; 


在 上 面 的 示例 中 ， 我 们 看 到 ，launch 和 userinfo 是 直接 使 用 JOIN 关联 的 ， 这 是 因为 我 
们 只 需要 保留 能 完全 关联 得 上 的 。 而 与 click 是 通过 LEFT OUTER JOIN 关联 的 ， 因 为 对 于 
每 一 个 用 户 ， 可 能 会 有 多 次 点 击 ， 都 需要 保留 。 但 是 ， 最 终 在 sum 点 击 数 的 时 候 需 要 对 关 
联 不 上 的 刨 除 。 

经 过 这 样 处 理 ， 我 们 得 到 如 下 结果 。 即 ， 在 1、2、3 级 别 的 注册 用 户 分 别 有 955 个 、 
488 个 、524 个 ， 他 们 分 别 带 来 了 394、197、252 次 点 击 。 应 注意 ， 到 了 这 个 步 又， 我 们 的 
练习 已 经 完成 了 ， 但 实际 工作 中 ， 需 要 对 此 步骤 的 数据 质量 做 更 深入 的 分 析 和 监控 。 


hive» select * from dwr sum info WHERE p date-'20160101'; 
OK 

1 955 394 20160101 

2 488 197 20160101 

3 524 252 20160101 

Time taken: 0.632 seconds, Fetched: 3 row(s) 





9.8 小 a 


Hive 是 基于 分 布 式 数据 仓库 的 框架 。 本 章 首 先 介绍 了 Hive 的 配置 和 体系 结构 ,之 后 讲 
解 了 Hive 命令 行 的 使 用 ， 以 及 Hive 中 的 数据 类 型 。HiveSQL 是 工作 中 用 到 最 多 的 ， 也 是 
数据 仓库 发 挥 价值 的 最 重要 的 方式 ,本 章 重 点 介绍 了 Hive 的 数据 定义 语言 和 数据 查询 语言 。 
Hive 的 用 户 自 定义 函数 (包括 普通 自 定义 函数 、 聚 合 函 数 、 展 开 函 数 ) 是 处 理 复杂 HiveSQL 
问题 的 一 种 常见 方法 。Hive 的 视图 、 索 引 、 权 限 、Thrift 服务 也 是 项 目 开 发 中 经 常 使 用 的 技 
术 。 本 章 最 后 给 出 了 一 个 数据 仓库 的 非常 简单 的 例子 ， 期 望 读 者 能 从 这 个 例子 中 理解 数据 
仓库 的 基本 建设 思路 和 方法 。 通 过 本 章 的 学 习 ， 希 望 读 者 能 对 Hive 的 各 个 方面 能 有 基础 的 
了 解 ， 并 能 重点 掌握 HiveSQL、 自 定义 函数 以 及 使 用 代码 访问 Thrift 服务 的 方法 。 
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本 章 带 领 读者 一 起 学 习 Storm 实时 处 理 系统 ，Storm 已 在 国内 外 多 家 机 
构 、 公 司 中 使 用 ,并 获得 了 极 高 的 评价 。Storm 通常 要 搭配 Kafka 进行 部 署 ， 
本 章 也 将 重点 介绍 这 两 部 分 。 本 章 主要 以 Apache Storm、Apache Kafka 官 
方 提供 的 资料 为 出 发 点 ， 结 合 实 际 工程 实践 进行 讲述 。 

通过 对 本 章 内 容 的 学 习 ， 读 者 应 能 够 掌握 Storm 实时 系统 的 基本 知识 ， 
能 够 结合 Kafka 编写 具有 产业 领域 通用 性 的 Topology 程序 。 


图 ”大 数据 实时 系统 概述 
m Kafka 分 布 式 消息 系统 
W Storm 实时 处 理 系 统 


10.1 大 数据 实时 系统 概述 


随 着 移动 互联 网 的 快速 发 展 ， 大 数据 时 代 到 来 了 。 批 处 理 技术 得 到 了 全 面 发 展 ， 涌 现 
出 很 多 的 分 布 式 存储 、 计 算 框 架 , 过 去 的 10 年 是 大 数据 处 理 变革 的 10 年 , 如 HDFS、YARN、 
MapReduce, Spark, Hive 等 以 及 一 些 相关 的 分 布 式 技术 ， 使 得 我 们 能 处 理 海量 数据 。 但 遗 
憾 的 是 ， 这 些 数据 处 理 技术 都 不 是 实时 的 系统 ， 它 们 设计 的 目的 ， 是 离线 计算 ， 而 不 能 满 
足 实 时 计算 应 用 场景 。 

在 产业 领域 ， 随 着 业务 及 技术 的 发 展 ， 企 业 产品 、 运 营 等 部 门 对 大 数据 流 处 理 的 需求 
变 得 更 加 强烈 ， 如 对 新 上 线 业 务 的 实时 监控 ， 能 最 早 发 现 问题 并 迅速 做 出 响应 ;对 实时 要 
求 比较 高 的 实时 推广 ， 能 根据 用 户 的 操作 信息 ， 迅 速 匹配 模型 ， 决 策 推广 内 容 ， 对 趋势 进 
行 实时 的 统计 、 分 析 ， 对 常见 统计 指标 进行 实时 统计 ， 使 业务 任务 能 以 秒 粒度 对 数据 趋势 
进行 分 析 。 

此 外 ， 产 业 巨 头 贡 献 的 流 处 理 技术 ， 加 速 了 实时 领域 的 快速 发 展 。 

目前 ， 比 较 流 行 的 实时 计算 框架 如 图 10-1 所 示 。 
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图 10-1 实时 系统 的 架构 


架构 组 成 说 明 如 下 。 

(1) 实时 多 数据 源 : 实时 产生 的 业务 数据 ， 常 见 的 形式 为 日 志 、DB、 互 联网 数据 等 。 
Q) 数据 采集 : 将 业务 数据 经 过 Flume 收集 ， 并 通过 ETL 处 理 后 加 载 到 消息 队列 中 。 
(3) 消息 缓存 : 采用 分 布 式 消息 系统 Kafka 作为 缓存 系统 ， 接 收 来 自 采 集 工具 的 导入 
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数据 ， 为 实时 分 析 引 擎 提供 数据 。 

(4) 实时 处 理 引擎 : 采用 Storm 开源 工具 ， 编 写 Topology， 实 现 业 务 的 处 理 逻 辑 。 

(5) 结果 存储 : 对 外 提供 应 用 的 存储 层 ， 主 要 为 关系 数据 库 或 NoSQL 数据 库 或 其 他 备 
份 存储 。 

(6) 应 用 : 基于 流 处 理 的 应 用 ， 常 见 的 有 实时 统计 、 实 时 监控 、 实 时 推广 等 。 

本 章 后 续 内 容 将 重点 介绍 消息 缓存 层 Kafka 分 布 式 消息 系统 和 实时 计算 引擎 层 Storm 系 
统 的 原理 、 部 署 、 运 行 。 并 分 别 附 带 实践 代码 ， 让 读者 熟悉 产业 领域 如 何以 Kafka. Storm 
等 软件 构成 一 个 能 满足 需求 的 大 数据 实时 处 理 系统 。 


10.2 Kafka 分 布 式 消息 系统 


Apache Kafka 是 一 种 高 吞吐 量 的 分 布 式 消息 系统 ， 可 用 于 处 理 在 线 服务 系统 中 的 实时 


10.2.1 Kafka 是 什么 


Kafka 是 一 个 分 布 式 的 、 分 区 的 、 带 有 副本 机 制 的 基于 日 志 的 高 速 消 息 缓存 系统 。 它 提 
供 了 一 个 消息 系统 的 功能 ， 但 它 的 设计 很 独特 ， 通 过 降低 磁盘 随机 读 写 要 求 的 磁头 跳 位 频 
度 ， 从 而 实现 让 磁盘 的 存储 达到 了 内 存 速度 的 目的 。Kafka 系统 中 的 基本 术语 说 明 如 下 。 

(1) 分 类 消息 被 称 为 主题 。 

(2) 发 布 消 息 到 主题 的 进程 是 生产 者 。 

(3) 订阅 主题 并 且 处 理发 布 的 消息 的 进程 是 消费 者 。 

(4) Kafka 集群 包含 一 个 或 多 个 服务 ， 每 个 服务 叫 broke。 

生产 者 (producenD 通 过 网 络 发 送 消息 到 Kafka 集群 , 消费 者 (consumer) 从 Kafka 集群 中 消 
费 消息 ， 一 个 主题 可 以 有 多 个 生产 者 ， 也 可 以 有 多 个 消费 者 ， 如 图 10-2 所 示 。 


producer 


kafka 
cluster 


Æ 10-2 Kafka 生产 者 -消费 者 模型 


在 客户 端 、 服 务 器 之 间 的 通信 遵循 简单 、 高 性 能 、 语 言 无 关 的 TCP 协议 。 
官网 提供 了 Kafka 的 Java 客户 端 ， 此 外 ，Kafka 还 支持 多 种 语言 的 客户 端 。 如 果 想 不 进 
行 编程 而 直接 使 用 Kafka 的 生产 者 -消费 者 服务 ， 可 以 通过 如 下 的 方式 : 


# bin/kafka-console-producer.sh --broker-list cluster-node-01:9092 --sync 
--topic topic test 
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bin/kafka-console-consumer.sh --zookeeper cluster-node-01:2181 --topic 
topic test (从 当前 位 置 读 ) 

bin/kafka-console-consumer.sh --zookeeper cluster-node-01:2181 --topic 
topic test --from-beginning (从 头 最 早 数据 读 ) 


10.2.2 ”主题 的 工作 原理 


主题 是 消息 发 布 的 目的 地 ， 同 时 也 是 消费 者 的 原 地 址 。 对 于 每 个 主题 ， Kafka 集群 都 保 
存 了 分 区 日 志 ， 以 提升 Kafka 生产 者 、 消 费 者 的 并 行 度 ， 其 形式 如 图 10-3 所 示 。 
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每 个 分 区 是 独立 有 序 的 ， 消 息 队 列 递增 追加 ， 每 个 分 区 都 以 日 志 形 式 存 储 。 每 个 分 区 
中 的 每 个 消息 都 会 被 分 配 一 个 连续 的 id 作为 offset， 它 可 以 唯一 确定 在 分 区 中 的 消息 。 

Kafka 集群 保存 所 有 的 发 布 消息 ,不管 消息 是 否 被 消费 。 数 据 的 生命 周期 是 由 配置 文件 
中 的 属性 决定 的 。 例 如 ， 日 志保 留 时 间 设 置 为 2 天 ， 那 么 ， 一 个 消息 从 发 布 开始 ， 两 天 内 
都 是 可 用 的 ， 两 天 后 ， 该 消息 被 删除 ， 配 置 文件 server.properties: 


# The minimum age of a log file to be eligible for deletion 
log.retention.hours-48 


Kafka 系统 可 以 高 效 地 存储 海量 数据 。 每 个 消费 者 只 需要 保存 元 数据 信息 ， 即 主题 和 偏 
移 量 。 消 费 者 控制 它 的 偏 移 量 ， 通 常 ， 消 费 者 随 着 阅读 线性 增加 偏 移 量 ， 实 际 上 ， 消 费 者 
可 以 从 任何 位 置 读 取 数 据 ， 例 如 ， 消 费 者 可 以 重 置 已 读 过 的 偏 移 量 ， 但 不 建议 消费 者 随机 
读 ， 而 是 相对 稳定 地 顺序 读 。 

这 些 功能 的 组 合 ， 意 味 着 Kafka 的 消费 者 非常 独立 。 一 个 消费 者 的 来 与 走 ， 不 会 对 集 
群 或 者 其 他 的 消费 者 有 任何 影响 。 例 如 ， 你 可 以 使 用 命令 行 工具 查看 主题 的 最 新 数据 ， 同 
一 主题 的 消费 者 的 消费 行为 不 会 影响 其 他 的 消费 者 。 

志 分 区 的 两 个 目的 : 首先 ， 人 允许 横向 扩展 ， 每 个 独立 的 分 区 是 一 个 独立 的 服务 ， 一 
个 主题 可 以 有 多 个 分 区 ， 所 以 能 并 行 处 理 大 量 的 数据 。 其 次 ， 分 区 作为 最 小 的 操作 单元 。 

每 个 分 区 中 的 offset 是 有 序 的 ， 生 产 者 、 消 费 者 都 是 有 序 的 。 但 是 ， 消 费 者 从 多 个 分 区 
中 消费 时 ， 不 能 保证 数据 的 原来 顺序 。 如 果 要 严格 保证 生产 者 的 写 入 顺序 也 是 消费 输出 顺 
序 ， 只 能 在 创建 主题 时 设置 分 区 数 为 1， 需 要 用 户 在 速度 和 顺序 之 间 做 选择 。 
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10.23 ”分 布 式 分 区 


Kafka 系统 中 ， 日 志 的 分 区 是 分 布 式 的 ， 每 个 分 区 服务 都 处 理 数据 和 请 求 资源 。 每 个 分 
区 有 副本 ， 副 本 数 由 配置 属性 确定 。 每 个 分 区 有 一 个 服务 ， 它 作为 操作 的 leader， 其 他 的 分 
区 副本 作为 followers。 由 leader 处 理 所 有 的 对 分 区 的 读 、 写 请 求 .而 follower 被 动 同步 为 leader 
的 数据 。 如 果 leader 失败 ，follower 中 的 一 个 将 成 为 新 的 leader。 


1024 生产 者 、 消 费 者 


生产 者 发 布 数据 到 指定 的 主题 ， 生 产 者 内 部 机 制 自动 选择 往 主题 的 哪个 分 区 分 配 数据 。 
通过 循环 方式 ， 简 单 实现 加 载 均衡 ， 或 者 可 以 通过 一 些 语义 分 区 函数 来 实现 。 

消息 系统 有 两 类 模型 ， 队列 模型 和 “发 布 -订阅 ”模型 。 在 队列 模型 中 ， 多 个 消费 者 可 
以 从 服务 读 取消 息 ; 在 “发 布 -订阅 ”模型 中 ， 消 息 是 以 广播 形式 传递 给 所 有 消费 者 的 。 

Kafka 提供 了 单一 的 消费 者 抽象 概念 一 一 消费 群 , 位 于 同一 个 消费 群 的 消费 者 共用 一 个 
offset， 这 也 是 一 种 提升 并 行 处 理 能 力 的 方案 。 

消费 者 用 群 名 标记 ， 每 个 消息 发 布 到 主题 后 ， 被 传送 到 每 个 消费 组 的 一 个 消费 者 实例 
中 。 消 费 者 实例 可 以 是 独立 的 进程 并 在 不 同 的 机 器 上 运行 。 

如 果 所 有 的 消费 者 实例 具有 相同 的 消费 群 组 ， 那 么 ， 这 就 像 传统 的 队列 模型 ， 并 能 负 

如 果 所 有 的 消费 者 实例 拥有 不 同 的 消费 群 组 ， 那 么 ， 这 就 像 “发布 -订阅 ”模型 ， 并 且 
每 个 消息 被 广播 到 所 有 的 消费 者 。 当 然 ， 这 里 ， 消 费 者 必须 要 设置 为 消费 该 主题 。 

一 个 主题 有 少数 量 的 消费 群 组 ， 每 个 群 组 由 许多 消费 者 实例 组 成 ， 消 费 者 实例 之 间 可 
扩展 、 高 容错 。 

Kafka 系统 中 ， 订 阅 是 一 个 群 组 ， 而 不 是 一 个 单一 的 消费 实例 ， 结 构 如 图 10-4 所 示 。 











Consumer Group A: onsumer Group B 


10-4 ”集群 架构 


一 个 两 个 节点 的 集群 (两 个 broker 进程 )， 某 主题 有 4 个 分 区 ， 两 个 消费 群 组 ， 其 中 ， 消 
费 群 组 A 有 两 个 消费 者 实例 ， 消 费 群 组 B 有 4 个 消费 者 实例 。 

Kafka 相对 于 传统 的 消费 系统 有 更 严格 的 顺序 性 。 传统 的 消费 队列 有 序 地 保存 消息 在 服 
务 上 ， 当 有 多 个 消费 者 消费 消息 时 ， 服 务 输 出 消息 是 有 序 的 ， 严 格 按照 存储 时 的 顺序 。 然 
而 ， 即 使 服务 提供 消息 是 有 序 的 ， 消 息 被 异步 传送 到 消费 者 时 ， 它 们 接收 到 的 消息 也 可 能 
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无 序 。 为 此 ， 消 息 系统 通常 采用 只 有 一 个 消费 者 来 保证 有 序 性 ， 显 然 ， 这 样 就 不 能 并 行 化 
处 理 。 这 在 大 数据 领域 中 基本 上 是 不 可 接受 的 。 

在 这 方面 ，Kafka 做 得 更 好 。 通 过 并 行 化 的 概念 分 区 同一 主题 ，Kafka 可 以 提供 同一 消 
费 群 中 消费 实例 的 顺序 保证 和 负载 均衡 。 通 过 分 派 主 题 的 分 区 ， 对 应 消费 群 中 的 一 个 消费 
者 ， 实 现 每 个 分 发 区 只 会 被 一 个 群 中 的 一 个 消费 者 处 理 。 这 样 ， 可 以 保证 该 消费 者 是 唯一 
的 ， 并 且 消 费 数据 是 有 序 的 。 注 意 : 消费 者 的 数量 不 要 超过 分 区 的 数量 ， 否 则 无 意义 。 

前 面 已 提 到 ，Kafka 只 提供 一 个 分 区 的 消息 的 有 序 性 , 不 是 主题 中 不 同 分 区 的 消息 的 有 
序 性 。 如 果 想 得 到 主题 全 部 消息 的 有 序 性 ， 可 以 通过 一 个 主题 只 有 一 个 分 区 来 实现 ， 这 也 
意味 着 每 个 消费 群 组 中 只 有 一 个 消费 者 实例 。 


10.2.5 数据 保证 


Kafka 的 数据 保证 如 下 : 

e ”消息 发 送 到 主题 的 分 区 的 顺序 是 发 送 的 顺序 。 同 一 个 生产 者 先 发 送 M1， 又 发 送 
M2， 那 么 ， 在 提交 日 志 (commit log). MI 就 会 有 较 低 的 偏 移 量 。 

@ 消费 实例 获取 消息 时 ， 按 照 消息 存储 的 顺序 。 

@ 对 于 一 个 具有 NN 副本 的 主题 ， 可 以 容忍 N-1 个 服务 故障 ， 而 不 会 丢失 消息 数据 。 


10.2.0 Kafka 系统 的 应 用 场景 

1. 消息 

Kafka 是 传统 消息 系统 的 有 效 蔡 代 品 。 消 息 队列 的 使 用 ， 通 常 是 为 了 多 种 原因 (降低 生 
产 者 、 消 费 者 之 间 的 耦合 性 ， 缓 冲 未 处 理 的 消息 等 )。 相 比 于 大 多 数 消息 系统 ，Kafka 有 更 


好 的 吞吐 量 、 内 置 分 区 、 副 本 和 容错 机 制 ， 因 此 ，Kafka 对 于 海量 数据 处 理应 用 是 一 个 极 佳 
的 解决 方案 。 

2. 网 站 动态 跟踪 

Kafka 可 以 以 实时 的 、“ 发 布 -订阅 ”模式 重建 网 站 的 活动 跟踪 曲线 。 这 表示 可 以 将 网 
站 活动 (PV、UV、 搜 索 、 其 他 用 户 行为 ) 实 时 发 布 到 主题 中 。 通 过 订阅 消息 ， 应 用 到 具体 的 
业务 中 。 常见 的 应 用 有 : 实时 处 理 、 实 时 监控 、 加 载 到 Hadoop 集群 或 者 离线 数据 仓库 系统 、 
报表 。 动 态 跟 踪 对 用 户 的 浏览 信息 进行 统计 ， 在 生产 领域 具有 极 高 的 应 用 价值 。 

3. 数值 计算 

Kafka 经 常用 于 监控 关键 数据 、 关 键 指 标 ， 这 需要 从 分 布 式 应 用 中 收集 数据 ， 经 过 计算 
引擎 实现 逻辑 ， 并 通过 前 端 展 示 结 果 数 据 。 

4. BERA 

很 多 人 用 Kafka 作为 日 志 聚 合 工 具 。 日 志 聚 合 通常 是 指 收集 物理 日 志文 件 ， 并 放 到 一 
个 统一 的 中 央 位 置 以 做 全 量 处 理 。Kafka 抽象 分 拣 的 详细 信息 ， 给 出 了 一 个 简洁 的 抽取 日 志 
后 的 时 间 数 据 作 为 流 消 息 。 这 人 允许 低 延 迟 数据 、 对 多 数据 源 的 支持 、 分 布 式 的 数据 消费 。 
相对 于 日 志 收 集 系 统 ， 如 Scribe 或 者 Flume, Kafka 可 以 提供 高 性 能 对 接 接口 ， 实 现 数据 的 
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海量 、 高 效 接 入 。 
5. 流 处 理 


在 很 多 应 用 场景 中 ， 用 户 需 要 做 一 些 阶段 性 的 数据 处 理 ， 这 些 数据 是 从 主题 中 消费 的 
源 数据 。 例 如 ， 一 个 处 理工 作 流 ， 需 要 疏 取 微 博文 章 、 放 到 articles 的 主题 中 ; 后面 的 处 理 
可 能 将 文章 内 容 清 洗 、 通 用 化 并 放 入 到 另 一 个 主题 中 ， 最 后 阶段 可 能 是 内 容 匹配 。 这 展示 
了 一 个 实时 数据 流 的 在 多 个 独立 topic 之 间 的 流向 。Storm 和 Spark Streaming 是 实现 该 类 型 
处 理 的 主流 框架 。 

6. 事件 采购 


事件 采购 是 把 状态 改变 记录 到 按时 间 有 序 记录 的 序列 。Kafka 支持 非常 大 的 日 志 存储 ， 
可 以 作为 该 类 应 用 的 优秀 的 后 端 服 务 。 


7. 提交 日 志 


Kafka 可 以 作为 一 个 分 布 式 的 提交 日 志 服 务 。 日 志 在 各 个 节点 之 间 有 备份 。 日 志 处 理 程 
序 可 以 方便 地 从 Kafka 制定 的 主题 中 获取 日 志 数据 并 进行 处 理 。 


10.2.7 Kafka 系统 的 部 署 
1. 账号 相关 
以 root 账号 登录 ， 创 建 storm 账号 : 








[rootéiZ25fnur5jkZ home]# useradd storm 
[rooteiZz25fnur5jkZ home]# passwd storm 


切换 为 storm 账号 : 
[storm(iz25fnur5jkZ ~]$ su - storm 


2. Zookeeper 安装 

Kafka 的 运行 依赖 Zookeeper， 用 于 记录 Kafka 相关 的 元 数据 信息 。 例 如 topic 信息 、 消 
费 者 信息 等 。Zookeeper 可 以 是 分 布 式 集群 ， 本 书 采 用 单 点 模式 ， 单 点 向 分 布 式 扩展 非常 容 
易 ， 只 需要 将 {dataDir} 目录 下 的 myid 配置 为 不 同 的 数值 ， 并 添加 新 的 {server.n}， 启 动 ， 即 
为 分 布 式 Zookeeper 集群 。 

(1) 下 面 安装 单 点 模式 的 Zookeeper。 

© 创建 Zookeeper 目录 、 解 压 : 


[stormQ(iZ25fnur5jkZ ~]$ mkdir zookeeper 


© 进入 Zookeeper 目录 : 


[stormQ(iZ25fnur5jkZ -]$ cd zookeeper 


© ”从 官方 网 站 下 载 Zookeeper 软件 包 ， 下 载 地 址 : 


http://apache.fayea.com/zookeeper/zookeeper-3.4.6/ 


© 解压 安装 包 : 
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[storm@i225fnur5jkZz zookeeper]$ tar -xvf zookeeper-3.3.6.tar.gz 


© IM Zookeeper 的 配置 文件 , 需要 修改 配置 文件 中 的 dataDir、 dataLogDir. server.1 « 
配置 文件 : 


[storm8iZz25fnur5jkZ zookeeper]$ vim conf/zoo.cfg 

# The number of milliseconds of each tick 
tickTime-2000 

# The number of ticks that the initial 

# synchronization phase can take 

initLimit-10 

# The number of ticks that can pass between 

# sending a request and getting an acknowledgement 
syncLimit-5 

# the directory where the snapshot is stored. 
dataDir-/home/shaka/dep/zookeeper-3.3.6/data  ( 改 成 自己 的 目录 ) 
# the port at which the clients will connect 
clientPort-2181 

# set logs 
dataLogDir-/home/shaka/dep/zookeeper-3.3.6/10ogs  ( 改 成 自己 的 目录 ) 
# set server 

server.l-hostname:4887:5887 ”( 改 成 自己 的 hostname 或 IP) 
#server.2=10.162.219.52:4887:5887 
#server.3=10.163.15.119:4887:5887 

# add by shaka 

# set max client connects 

maxClientCnxns-300 


(2) Zookeeper 的 基本 操作 。 
© 启动 Zookeeper， 赋 权 bin 下 所 有 文件 的 执行 权限 : chmod +x *。 


[storm@iZ25fnur5jkZz zookeeper]$ bin/zkServer.sh start 

JMX enabled by default 

Using config: 
/home/storm/streamprocessing/zookeeper/zookeeper-3.4.6/bin/../ 
conf/zoo.cfg 

Starting zookeeper ... STARTED 


Q ”启动 后 查看 状态 : 


[storm@iZ25fnur5jkZz zookeeper]$ bin/zkServer.sh status 

JMX enabled by default 

Using config: 
/home/storm/streamprocessing/zookeeper/zookeeper-3.4.6/bin/../ 
conf/zoo.cfg 

Mode: standalone 


© 停止 ZK 服务 : 


[shakaQiZ25fnur5jkZ zookeeper]$ bin/zkServer.sh stop 

JMX enabled by default 

Using config: 
/home/storm/streamprocessing/zookeeper/zookeeper-3.4.6/bin/../ 
conf/zoo.cfg 

Stopping zookeeper ... STOPPED 


© 重启 ZK 服务 : 


[shakaQiZ25fnur5jkZ zookeeper]$ bin/zkServer.sh restart 
JMX enabled by default 
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Using config: 
/home/storm/streamprocessing/zookeeper/zookeeper-3.4.6/bin/../ 
conf/zoo.cfg 

JMX enabled by default 

Using config: 
/home/storm/streamprocessing/zookeeper/zookeeper-3.4.6/bin/../ 
conf/zoo.cfg 

Stopping zookeeper ... STOPPED 

JMX enabled by default 

Using config: 
/home/storm/streamprocessing/zookeeper/zookeeper-3.4.6/bin/../ 
conf/zoo.cfg 

Starting zookeeper ... STARTED 


(3) ZK 的 初始 化 目录 为 : /zookeeper/quota。Zookeeper 安装 启动 后 ， 继 续 部 署 Kafka。 
© ”从 官网 下 载 Kafka， 下 载 地 址 : 


wgethttps://www.apache.org/dyn/closer.cgi?path-/kafka/0.8.1.1/ 
kafka 2.9.2-0.8.1.1.tgz 


© 解压 软件 包 : 


[storm@hadoop-nn sbin]$tar -xvf kafka 2.9.2-0.8.1.1.tgz 


3. 修改 Kafka 的 配置 文件 


(1) 修改 配置 文件 vim conf/server.properties: 


broker.id=0 

host.name-yourhostname 
zookeeper.connect-zookeeperhostname:2181 可 逗号 分 隔 配置 多 个 
[storm@hadoop-nn sbin]chmod +x sbin/* 


(2) 修改 配置 文件 vim log4j.properties: 


log4j.appender.D.File = 

/datal/home/shaka/kafka/kafka 2.9.2-0.8.1.1/10gs/debug.log ( 改 成 自己 的 目录 ， 
或 者 用 相对 路 径 ) 

log4j.appender.E.File = 

/datal/home/shaka/kafka/kafka 2.9.2-0.8.1.1/10gs/error.log ( 改 成 自己 的 目录 ， 
或 者 用 相对 路 径 ) 

(3) 在 Kafka 目录 下 ， 创 建 sbin 目录 ， 存 储 常 用 的 操作 脚本 。 然 后 编写 Kafka 启动 脚 

本 start-kafka.sh: 


bin/kafka-server-start.sh config/server.properties 


(4) 编写 查看 主题 的 脚本 list-topic.sh: 


bin/kafka-topics.sh --list --zookeeper zookeeperhostname:2181 
(zookeeperhostname 改 成 zookeeper 部 署 服务 器 的 hostname) 


(5) 确保 有 执行 权限 ， 通 过 svn、 拷 贝 等 方式 可 能 会 丢失 执行 权限 ， 需 要 进行 添加 : 


[stormehadoop-nn kafka 2.9.2-0.8.1.1]$ chmod +x bin/* 
[stormehadoop-nn kafka 2.9.2-0.8.1.1]$ chmod «x sbin/* 


(6) 启动 Kafka 服务 : 


sbin/start-kafka.sh 


emi suman x: 
9 

(7) 查看 是 否 启 动 : jsp -1。 

21689 kafka.Kafka (表示 Kafka 已 经 启动 ) 


4. Kafka 操作 实践 
(1) 创建 topic 主题 。 主 题 的 名 称 为 mykafka: 


[stormehadoop-nn kafka 2.9.2-0.8.1.1]$ bin/kafka-topics.sh --create 
--zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic 
mykafka 


(2) 查看 主题 : 


[storm@hadoop-nn kafka 2.9.2-0.8.1.1]$ sbin/list-topic.sh 
topic-test-001 

mykafka 

Datacenter-001 


可 以 看 到 ， 创 建 的 主题 已 被 列 出 ， 说 明 创 建成 功 。 测 试用 的 主题 mykafka 采用 一 个 分 
区 ， 一 个 备份 。 

生产 环境 通常 需要 配置 多 个 分 区 、 多 个 备份 ， 以 提高 Kafka 的 性 能 。 

(3) 启动 consumer: 


bin/kafka-console-consumer.sh --zookeeper hadoop-nn:2181 --topic mykafka 


(4) 启动 producer: 


bin/kafka-console-producer.sh --broker-list hadoop-nn:9092 --topic mykafka 


(5) 在 producer 端 输入 ， 看 consumer 端的 输出 。 
O MA: 


[storm@hadoop-nn kafka_2.9.2-0.8.1.1]$ bin/kafka-console-producer.sh -st 
hadoop-nn:9092 --topic mykafka 

SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder". 

SLF4J: Defaulting to no-operation (NOP) logger implementation 

SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further 
details. 

hello world, kafka! 


Q 输出 : 


[storm@hadoop-nn kafka 2.9.2-0.8.1.1]$ bin/kafka-console-consumer.sh 
--zookeeper hadoop-nn:2181 --topic mykafka 

SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder". 

SLF4J: Defaulting to no-operation (NOP) logger implementation 

SLF4J: See http://www.slf4j.org/codes.htmlfáStaticLoggerBinder for further 
details. 

hello world, kafka! 





5. Kafka 应 用 实践 

模拟 Web 服务 器 实时 产生 日 志 ， 实 时 写 入 到 Kafka 中 ， 并 从 Kafka 中 实时 消费 ， 写 入 
到 MySQL 表 中 。 

数据 处 理 流 程 如 图 10-5 所 示 。 
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© (2) 





input/kafka output/kafka 


图 10-5 Kafka 数据 收集 流程 图 
Logger 为 脚本 代码 ， 如 下 所 示 : 


vim shelllogger.sh 


#!/bin/sh 

# start cmd: 

# nohup sh shelllogger.sh >> shelllogger.log 2>&1 & 
# set timer 

g getTime 
function getTime 
t 





g getTime-'date "'«$Y$m$d $H:$M:$$S'^ 
) 
#getTime && echo "[$g getTime] [$0:$LINENO:$FUNCNAME] - " 
# set function ui 
function crawler 
$ 

int=1 

while(( $int«-1000000000 )) 

do 

log-"( \"time localV": V"01/Nov/2015:00:01:01 +0800\", \"remote addr\": 
\"182.92.77.57\", \"remote userV": \"-\", \"body bytes sent\": \"5760\", 
\"request time\": \"0.005\", \"status\": \"200\", \"request\": \"GET 
/jiayouserver/www/index.php\", \"request method\": \"GET\", 
\"http_referrer\": \"-\", \"body bytes sent\":\"5760\", 
\"http x forwarded for\": \"-\", \"http user agent\": \"Wget/1.12 
(linux-gnu)\" )" — n g 

let "int++" 

echo $log >> access.log 

sleep 1s 

#usleep 1000 

done 
} 
# main 
crawler 


Logger 打印 access.log Vj EDU: 


("time local": "01/Nov/2015:00:01:01 +0800", "remote addr": "182.92.77.57", 
"remote user": "-", "body bytes sent": "5760", "request time": "0.005", 
"status": "200", "request": "GET /jiayouserver/www/index.php", 

"request method": "GET", "http referrer": "-", "body bytes sent":"5760", 
"http x forwarded for": "uo "http user agent": "Wget/1.12 (linux-gnu)" } 
{ "time local": "01/Nov/2015:00:01:01 +0800", "remote addr": "182.92.77.57", 
"remote user": "-", "body bytes sent": "5760", "request time": "0.005", 
"status": "200", "request": "GET /jiayouserver/www/index.php", 
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"request method": "GET", "http referrer": "-", "body bytes sent":"5760", 
"http x forwarded for": "-", "http user agent": "Wget/1.12 (linux-gnu)" } 


Input/kafka 将 日 志 数 据 实时 收集 到 Kafka 中 ， 主 题 为 mykafka: 


[rootéiz25fnur5jkZ home] nohup tail -f ../../logger/access.log | 
bin/kafka-console-producer.sh --broker-list hadoop-nn:9092 --topic 
mykafka »1ogs/producer.log 2>&1 & 


Output/kafka 从 mykafka 中 读 取 数据 : 


[rootéiZz25fnur5jkZ home]nohup 

/usr/local/streamprocessing/kafka/kafka 2.9.2-0.8.1.1/bin/kafka-console- 
consumer.sh --zookeeper hadoop-nn:2181 --topic mykafka | java 
-Djava.ext.dirs-dist:lib loader.mysql.Loader > logs/consumer.log 2>&1 & 


此 处 采用 管道 形式 ， 将 数据 直接 传递 给 写 RDB 的 处 理 单元 ， 将 结果 写 入 表 中 。 

管道 的 工程 对 接 代码 如 下 : 

/[** 

* ”接收 控制 台 的 输入 

Wf 

BufferedReader reader = 

new BufferedReader (new InputStreamReader (System.in)); 

String input - null; 

while ((input-reader.readLine()) !- null) ( 
System.out.println (input); 
Loader.load(input); 


) 
reader.close(); 


// 解 析 日 志 内 容 ， 一 行 日 志 ，Json 格式 ， 解 析 类 


public class JsonLine ( 


private Map«String, String» map = new HashMap«String, String»(); 
public Map«String, String» et(String line) ( 
try ( 

map.clear(); 

// 日 志 原 有 字段 

map.put("time local", kie: 27 

map.put("remote addr",  "-"); 

map.put("remote user", dt i 


map.put ("request", m 

map.put ("status", TERRE 

map.put ("body bytes sent",  "-"); 
map.put("http referer",  "-"); 
map.put("http user agent",  "-"); 
map.put("http x forwarded for", "-"); 
// 转 化 新 字段 


map.put ("location", sy 
map.put ("date", 
// 读 出 Json 中 的 数据 
JSONObject logjson = JSONObject.fromObject (line); 
Iterator«String» it = logjson.keys(); 
while (it.hasNext()) ( 

String key - it.next(); 

String value = logjson.getString (key); 

map.put(key, value); 


) 
// 转 化 数据 


map.put("location", getLocation (map.get ("remote addr"))); 
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map.put ("date", getDate (map.get ("time local"))); 
System.out.println (map); 
} catch (Exception e) ( 
System.out.println(e.getMessage()); 
} 
return map; 
} 
public String getLocation (String remote addr) ( 
Ip2PlaceTool ipt - new Ip2PlaceTool(); 
String location = ipt.getIpLocation(map.get("remote addr")); 
return location; 
} 


public String getDate(String time) ( 
// [19/Jun/2014:10:38:20 +0800] 
time - time.replace("[", "").replace("]", "").replace(" ", ":"); 
StringTokenizer splitter - new StringTokenizer(time, "/:"); 
// get day 
String day - null; 
if (splitter.hasMoreTokens()) ( 
day 7 splitter.nextToken(); 
} 
// get month 
String month = null; 
if (splitter.hasMoreTokens()) { 
JTimer timet = new JTimer(); 
month = timet.MonthAtol (new String(splitter.nextToken())); 
} 
// get year 
String year = null; 
if (splitter.hasMoreTokens()) { 
year = splitter.nextToken(); 
} 
// get date 
String date = year + month + day; 
return date; 
} 


public static void main(String[] args) { 


String line = "( \"time localV": V"16/0ct/2015:15:02:14 «0800N", 
\"remote addr\": N"211.157.142.222V", \"remote user\": \"-\", 
\"body bytes sent\": \"2102\", \"request time\": \"0.003\", \"status\": 
\"200\", \"request\": \"GET 一 
/jiayouserver/www/index.php?factory-dream&user-$E5$B8$B8$E5$BF$97$E5$869 
9B HTTP/1.1N", \"request method\": \"GET\", \"http referrerNV": N"-N", 
V'body bytes sentV":V"2102V", \"http x forwarded for\": \"-\", 
\"http user agentV": V'"Mozilla/5.0 (iPhone; CPU iPhone OS 8 0 like 
Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Mobile/12A365N" )"; 


JsonLine ngix - new JsonLine(); 
Map«String, String» res = ngix.et (line); 


System.out.println (res); 
} 


写 MySQL 的 主要 代码 如 下 : 
// 逐 行进 行 解析 


for (int i=0; i«rows.length; i++) 


us 从 基础 理论 到 最 佳 实践 


// 逐 行进 行 解析 

JsonLine ngix = new JsonLine(); 

Map«String, String» mapline = ngix.et(rows[i]); 
String date - mapline.get ("date"); 

String time = mapline.get("time local"); 


String ip  - mapline.get("remote addr"); 
String location - mapline.get ("location"); 
String status = mapline.get ("status"); 


String body bytes sent - mapline.get("body bytes sent"); 

String request - mapline.get ("request"); 

String http referer - mapline.get("http referer"); 

String http user agent - mapline.get("http user agent"); 

String http x forwarded for - mapline.get("http x forwarded for"); 


// exec sql 

String sql - "insert into 
t nginx access (date,time,ip,location,status,body bytes sent,request,http 
referer,http user agent,http x forwarded for) values('" + dates "', '" + 
time e "','" cip - "','" « location + "','" F status + "','" + body ] bytes | sent 
TUE N request + e, "m xo BELDA 二 pone Um p http. user agent + "','" 


* http | X forwarded for x my"; 
System.out.println("sql-" * sql); 
ret = gmysql.exeSQL DUI (sql); 

) 


10.3 Storm 实时 处 理 系 统 


Apache Storm 是 一 个 免费 的 、 开 源 的 、 分 布 式 的、 实时 的 流 计 算 系统 ， 支 持 使 用 多 种 
编程 语言 实现 处 理 实时 业务 逻辑 。 


10.3.1 概述 


大 规模 的 实时 数据 处 理 已 经 越 来 越 成 为 一 种 业务 需求 了 ， 而 缺少 一 个 “实时 版 本 的 
Hadoop” 已 经 成 为 数据 处 理 整个 生态 系统 的 一 个 巨大 缺失 。 

Storm 应 运 而 生 ， 填 补 了 这 个 缺失 。Storm 出 现 之 前 ， 需 要 自己 手动 维护 一 个 由 消息 队 
列 (Queues) 和 消息 处 理 者 (Workers) 所 组 成 的 实时 处 理 网 络 , 消息 处 理 者 从 消息 队列 取出 一 个 
消息 进行 处 理 ， 更 新 数据 库 ， 发 送 消息 给 其 他 队列 进行 进一步 处 理 ， 但 是 ， 这 种 计算 方式 
的 局 限 性 太 大 : 复杂 、 不 健壮 且 扩展 性 差 。 

Storm 发 布 的 第 一 天 , Github 上 的 粉丝 就 超过 了 1000 A Storm 立刻 登 上 了 Hacker News 
网 站 的 头条 。2012 年 1 月 做 了 一 个 调查 ， 发 现 Storm 已 有 10 个 产品 用 户 ， 另 有 15 个 用 户 
计划 将 要 在 他 们 的 产品 中 使 用 Storm， 还 有 30 家 企业 对 Storm 进行 了 试验 。 在 发 布 后 的 3 
个 月 内 ， 拥 有 了 那么 多 的 产品 用 户 ， 这 对 于 一 个 大 型 的 基础 型 项 目 来 说 是 非常 有 意义 的 。 

在 开源 短 短 的 三 年 后 ，Storm F 2014 年 9 月 17 日 正式 步 入 顶级 项 目的 行列 。 


10.3.2 为 什么 使 用 Storm 


Apache Storm 是 一 个 免费 的 、 开 源 的 、 分 布 式 的 、 实 时 的 流 计算 系统 。Storm 使 得 流 式 
数据 处 理 变 得 非常 容易 ， 相 对 于 Hadoop 的 批 处 理 ，Storm 是 实时 的 流 处 理 。Storm 简单 、 
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可 以 使 用 多 种 编程 语言 实现 处 理 逻 辑 。 

Storm 有 很 多 的 使 用 案例 : 实时 分 析 、 在 线 机 器 学 习 、 连 续 计 算 、 分 布 式 RPC. ETL 
等 。Storm 速度 快 : 每 个 节点 、 每 秒 钟 以 百 万 级 的 速度 处 理 元 组 。Storm 易 扩 展 、 高 容错 、 
数据 安全 、 易 于 安装 和 操作 。 

Storm 整合 了 消息 队列 和 数据 库 技 术 。Storm Topology 以 任意 的 复杂 方式 、 分 流 各 个 阶 
段 的 计算 结果 来 处 理 流 数据 ， 起 点 数据 通常 来 源 于 消息 队列 ， 终 点 通常 指向 数据 库 技术 。 

Storm 系统 在 大 数据 实时 领域 被 广泛 使 用 ， 图 10-6 为 部 分 使 用 单位 。 








AP f Ublcon spider.i IO ELM Weste (y) VERISIGN" WebMD wegog 


oo Ff o K| 
rc £e Bai BE C Cerner pe v infochimps KLOUT 


A Xerox Company Market Science 


CEANA PreMse a s AA AS ; rUbicofispidec.io AE PA 


LIT Taobao.com 


i m 
Flipboard 


10-6 Storm 系统 的 用 户 


Storm 集群 主要 由 一 个 主 节点 (master node) 和 一 群 工作 节点 (worker nodes) 组 成 ， 通 过 
Zookeeper 集群 进行 协调 。 

主 节 点 通常 运行 一 个 后 台 程 序 一 一 Nimbus， 用 于 响应 分 布 在 集群 中 的 节点 ， 分 配 任 务 
和 监测 故障 。 工 作 节 点 同样 会 运行 一 个 后 台 程序 一 一 Supervisor， 用 于 收听 工作 指派 ， 并 根 
据 要 求 运行 工作 进程 。 每 个 工作 节点 都 是 topology 中 一 个 子 集 的 实现 。 
10.3.3 ”Storm 系统 的 特点 

1. 可 扩展 

计算 任务 可 在 多 个 线程 、 进 程 和 服务 器 之 间 并 行进 行 ， 支 持 灵活 的 水 平 扩展 。 

2. 高 可 靠 

保证 每 条 消息 都 能 被 完全 处 理 。 

3. 高 容错 性 

Nimbus, Supervisor 都 是 无 状态 的 ， 可 以 用 Kill -9 来 杀 死 Nimbus 和 Supervisor 进程 ， 
然后 再 重启 它们 ， 任 务 照 常 进行 。 当 Worker 失败 后 ，Supervisor 会 尝试 在 本 机 重启 它 。 
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4. 支持 多 种 编程 语言 
除了 用 Java 实现 Spout 和 Bolt， 还 可 用 其 他 语言 。 


5. 支持 本 地 模式 
可 在 本 地 模拟 一 个 Storm 集群 功能 、 进 行 本 地 测试 
6. 高 效 


用 ZeroMQ 作为 底层 消息 队列 ， 保 证 消息 能 快速 被 处 理 。 
10.3.4 Storm 系统 的 工作 机 制 


Storm 客户 端 提交 Topology 到 Nimbus, MH Nimbus ££ Topology 的 本 地 目录 ， 通 过 
Zookeeper 分 配 资源 和 进行 任务 调度 ， 监 控 Task 心跳 。 

Zookeeper 存放 公共 数据 ，Nimbus 将 分 配给 Supervisor 的 任务 都 写 入 到 Zookeeper 的 
znode 中 。 

Supervisor 通过 Zookeeper 获得 Nimbus 分 配 的 任务 ， 并 管理 属于 自己 的 Worker 进程 。 
Supervisor 获取 Task 后 ， 启 动 任务 Worker， 建 立 任务 之 间 的 连接 。 

流程 如 图 10-7 所 示 。 


















Supervisor 读 取 


提交 Topology 到 
Nimbus 








从 Zookeeper 中 读 取 Nimbus 分 
配 的 任务 ， 并 监控 Worker 进 程 


执行 Topology 的 进程 ， 
包含 多 个 Task 





图 10-7 Storm 任务 的 流程 


在 Storm 中 ， 应 用 程序 实现 实时 处 理 的 逻辑 被 封装 进 Storm 的 Topology 中 。 

一 个 Topology 是 由 一 组 Spout 组 件 (数据 源 ) 和 Bolt 组 件 ( 数 据 操作 ) 通 过 Stream 
Groupings 进行 连接 的 图 。 

Spout: 在 一 个 Topology 中 产生 源 数 据 流 的 组 件 ， 从 来 源 处 读 取 数 据 并 放 入 Topology。 

Bolt: 在 一 个 Topology 中 接收 数据 然后 执行 处 理 的 组 件 。 

Topology 的 拓扑 结构 如 图 10-8 所 示 。 
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Spout 


图 10-8 数据 流向 图 (topology 的 拓扑 结构 ) 


10.3.5 Storm 的 分 组 方法 


(1) 随机 分 组 (Shuffle grouping): 随机 分 发 Tuple 到 Bolt 的 任务 ， 保 证 每 个 任务 获得 相 
等 数量 的 Tuple， 如 图 10-9 所 示 。 


ELEM 





图 10-9 随机 分 组 


(2) 字段 分 组 (Fields grouping): 根据 指定 字段 分 割 数 据 流 ， 并 分 组 。 例 如 ， 根据 user-id 
字段 ， 相 同 user-id 的 元 组 总 是 分 发 到 同一 个 任务 ， 不 同 user-id 的 元 组 可 能 分 发 到 不 同 的 任 
务 ， 如 图 10-10 所 示 。 


Tuple 
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(3) 


全 部 分 组 (All grouping): Tuple 被 复制 到 Bolt 的 所 有 任务 .这 种 类 型 需要 谨慎 使 用 ， 


如 图 10-11 所 示 。 


(4) 
(5) 


机 分 组 。 


BoltB 





10-11 全 部 分 组 
全 局 分 组 (Global grouping): 全 部 流 都 分 配 到 Bolt 的 同一 个 任务 。 


无 分 组 (None grouping): 我 们 不 需要 关心 流 是 如 何 分 组 的 。 目 前 ， 无 分 组 等 效 于 随 
但 最 终 ，Storm 将 把 无 分 组 的 Bolts 放 到 Bolts 或 Spouts 订阅 它们 的 同一 线程 去 执 


行 (如 果 可 能 )。 


(6) 


直接 分 组 (Direct grouping): 这 是 一 个 特别 的 分 组 类 型 。 元 组 生产 者 决定 Tuple 由 哪 


个 元 组 处 理 者 任务 接收 。 
10.3.6 Storm 系统 的 组 件 


(1) 
Q) 
(3) 
(4) 
(5) 
(6) 
C) 
(8) 
(9) 


Topology: Storm 中 运行 的 一 个 实时 应 用 程序 。 

Nimbus: 负责 资源 分 配 和 任务 调度 。 

Supervisor: 接受 Nimbus 分 配 的 任务 ， 启 动 和 停止 属于 自己 管理 的 Worker 进程 。 
Worker: 运行 具体 处 理 组 件 逻 辑 的 进程 。 

Task: Worker 中 每 一 个 Spout/Bolt 的 线程 称 为 一 个 Task。 

Spout: 在 一 个 Topology 中 产生 源 数 据 流 的 组 件 。 

Bolt: 在 一 个 Topology 中 接收 数据 然后 执行 处 理 的 组 件 。 

Tuple: 一 次 消息 传递 的 基本 单元 。 

Stream grouping: 消息 的 分 组 方法 。 


10.3.7 HERA Storm 系统 


本 部 分 介绍 搭建 Storm 并 运行 Storm 集群 的 步骤 。 
Storm 的 版 本 : apache-storm-0.9.2-incubating。 





下 面 是 安装 Storm 集群 的 概括 性 步骤 。 














a) 
Q) 
(3) 
(a) 


搭建 ZK 集群 。 

安装 Nimbus 和 Worker 机 器 上 的 依赖 工具 。 

下 载 、 解 压 Storm 发 行 稳定 包 到 Nimbus 和 Worker 的 机 器 上 。 
配置 Storm 的 配置 文件 storm.yaml。 
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(5) 启动 Storm 的 Nimbus 和 Supervisor 守护 进程 。 
Storm 的 依赖 软件 有 Python、Zeromq、Jzmq、Zookeeper。 此 外 ， 系 统 应 安装 有 Java、 
Gcc、G++ 编 译 环 境 。 


1. 安装 Storm 依赖 包 
TE/home/storm/ F : 


[storm86iz25fnur5jkZ dependence]$ mkdir dependence 
[storm8iZ25fnur5jkZ dependence]$ more REAME 


本 文件 夹 的 依赖 文件 仅 为 Storm 依赖 文件 。 

切换 到 dependence 目录 : 

[storm@iz25fnur5jkz dependence]$ cd dependence 
下 载 zeromq. jzmq 到 该 目录 。 

安装 zeromq: 


[storm8iz25fnur5jkZ dependence]$ tar -xvf zeromq-4.0.4.tar.gz 
[storm8iz25fnur5jkZ dependence]$ cd zeromq-4.0.4 
[storm8iZ25fnur5jkZ dependence]$./configure 
[storm8iZ25fnur5jkZ dependence]$make 

[storm6iz25fnur5jkZ dependence]$sudo make install 


安装 jzmq: 


[storm6iZ25fnur5jkZ dependence]$cd jzmq 
[storm6iZ25fnur5jkZ dependence]$./configure 
[storm8iZ25fnur5jkZ dependence]$make 
[storm6iZ25fnur5jkZ dependence]$make install 


安装 Python 2.6.6( 使 用 root 账号 ， 目 录 不 相干 ): 


[storm8iz25fnur5jkZ dependence]yum install python-devel 


2. 安装 Storm 
创建 storm 目录 ， 用 以 安装 Storm: 


[storm@iZz25fnur5jkz shaka]$ cd /home/storm 
[storm8iZ25fnur5jkZ shaka]$ mkdir storm 
[storm86iZ25fnur5jkZ shaka]$ cd storm 


从 官网 下 载 Storm 安装 包 ， 下 载 地址 为 


wget http://www.apache.org/dyn/closer.lua/storm/apache-storm-0.9.2-incubating/ 
apache-storm-0.9.2-incubating.tar.gz 


解压 Storm 安装 包 : 


[stormQiZ25fnur5jkZshaka]$ tar -xvf 
apache-storm-0.9.2-incubating.deploy.tar.gz 


配置 环境 变量 : 


vim -/.bash profile 
export STORM HOME-/home/shaka/storm/apache-storm-0.9.2-incubating 
export PATH-$PATH:S$STORM HOME/bin 


Bl "从 基础 理论 到 最 佳 实 中 


重 载 环 境 变量 : 
[storm(iZ25fnur5jkZ shaka]$ - ^/.bash profile 
修改 配置 文件 storm.yaml: 


JTHHHHHHHHHE These MUST be filled in for a storm configuration 
Storm.zookeeper.servers: 

- "zookeeper-hostname01" 

# - "zookeeper-hostname02" 

# - "zookeeper-hostname03" 
nimbus.host: "storm-node-01" 
storm.local.dir: 
"/home/storm/storm/apache-storm-0.9.2-incubating/topology" 
ui.port: 8080 


启动 Storm( 在 此 之 前 ， 要 启动 Zookeeper): 


[stormQ@iZz25fnur5jk2Z shaka]$storm nimbus & 
[storm8iZ25fnur5jkZ shaka]$storm supervisor & 
[storm8iZ25fnur5jkZ shaka]$storm ui & 


10.3.8 查看 Storm UI 


启动 Storm 后 ， 可 以 通过 http:// {nimbus host}:8080 进行 查看 ， 如 图 10-12 所 示 。 
Storm UI 


Cluster Summary 


Voralon Mmbus uptimo Suporvicors cod clo Froo slos Total slots 





ating fm Is 1 o 4 4 o D 


Topology summary 


Nomo a Statue Upome Mum workore Hum oxocutors Hom taske 
Supervisor summary 


[D] = Hos Uptime Slots Used slots 


dd451n0804.456 





Jetse edoop dm " 


Nimbus Configuration 
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10.3.9 搭建 Storm 集群 


扩展 Storm 新 节点 。 

将 shaka/storm 下 的 软件 包 完全 一 样 地 复制 到 新 的 机 器 上 。 
配置 文件 不 需要 修改 ， 因 为 要 共用 ZK 和 Nimbus。 

配置 环境 变量 : 

vim ~/.bash profile 


export STORM HOME-/home/shaka/storm/apache-storm-0.9.2-incubating 
export PATH-S$PATH:S$STORM HOME/bin 
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启动 supervisro 多 的 方法 : 


[storm(iZ25fnur5jkZ shaka]$storm supervisor & 


至 此 ， 集 群 版 的 Storm 的 安装 完成 。 
一 个 集群 模式 的 Storm 就 搭建 起 来 了 。 


10.3.10 Storm 系统 的 操作 实践 
(1) 查看 Storm 命令 的 方法 : 


[stormehadoop-nn apache-storm-0.9.2-incubating]$ storm help 


Commands: 
activate 
classpath 
deactivate 
dev-zookeeper 
drpc 
help 
jar 
kill 
list 
localconfvalue 
logviewer 
nimbus 
rebalance 
remoteconfvalue 
repl 
Shell 
supervisor 
ui 
version 


Help: 
help 
help «command» 


(2) 提交 Storm Topology: 

storm jar mycode.jar storm.MyTopology argl arg2 .. 

mycode.jar 是 包含 Topology 实现 代码 的 JAR &, storm.MyTopology 的 main 方法 是 
Topology 的 入 口 ，argl、arg2 等 为 main 方法 参数 。 

(3) 列 出 StormTopology: 

[storm@iz25fnur5jkZ shaka]$ storm list 

(4) 停止 Storm Topology: 

[stormQ(iZ25fnur5jkZ shaka]$ storm kill [topologyname] 


(5) 查看 版 本 信息 : 


[stormehadoop-nn apache-storm-0.9.2-incubating]$ storm version 
0.9.2-incubating 


数据 
B "从 基 础 理论 到 最 佳 实 中 


10.3.11 Storm WordCount( 写 RDB) 


Ant 编译 的 Start 工程 ， 主 要 实现 WordCount 功能 ， 同 时 将 最 新 结果 更 新 到 MySQL 数 
据 库 中 。Storm 做 词 频 统计 Topology 的 主要 过 程 如 图 10-13 所 示 。 









EC 


10-13 Storm 做 词 频 统计 Topology 的 主要 过 程 
Storm 读 Kafka 需要 的 JAR 包 : 


storm-kafka-0.9.2-incubating.jar 
kafka 2.9.2-0.8.0-betal.jar 
metrics-core-2.2.0.jar 
scala-library-2.9.2.jar 


这 几 个 JAR 包 在 Kafka 项 目 中 能 找到 。 放 在 Storm ff] lib 下 。 
1. 主要 实现 类 
WordCountTopology.java: 





public static void main(String[] args) throws Exception ( 


/ Topology 创建 
TopologyBuilder builder - new TopologyBuilder(); 
builder.setSpout("spout", new RandomSentenceSpout(), 1); 
builder.setBolt( 
"split", new SplitSentence(), 1).shuffleGrouping ("spout"); 
builder.setBolt("count", new WordCount(), 1) 
.fieldsGrouping("split", new Fields ("word")); 
Config conf - new Config(); 
conf.setDebug (true); 
// 本 地 模式 启动 
if (args!-null && args.length»0) ( 
conf.setNumWorkers (1); 
StormSubmitter.submitTopology( 
args[0], conf, builder.createTopology()); 
) else ( // 分 布 式 模式 
conf.setMaxTaskParallelism(3); 
StormSubmitter.submitTopology( 
"word-count", conf, builder.createTopology()); 
) 
} 
// 其 中 builder.setspout ("spout", new RandomSentenceSpout(), ，1) 设 定数 据 喷 发 
// 方 式 ， 本 例子 采用 随机 产生 单词 的 方式 。 
//builder.setBolt("split", new SplitSentence(), 1) 
// .shuffleGrouping ("spout") 指定 分 词 方法 。 
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//builder.setBolt("count", new WordCount(), 1).fieldsGrouping( 
//"split", new Fields ("word") ) 指定 单词 统计 后 的 存储 目的 地 。 


RandomSentenceSpout 类 的 具体 实现 : 


public class RandomSentenceSpout extends BaseRichSpout ( 
SpoutOutputCollector collector; 
Random rand; 
GOverride 
public void open(Map conf, TopologyContext context, 
SpoutOutputCollector collector) ( 
collector = collector; 
rand = new Random(); 
) 
GOverride 
public void nextTuple() ( 
Utils.sleep(100); 
String[] sentences - new String[] ( "the cow jumped over the moon", 
"an apple a day keeps the doctor away", 
"four Score and seven years ago", 
"snow white and the seven dwarfs", 
"i am at two with nature" }; 
String sentence - sentences[ rand.nextInt (sentences.length)]; 
. collector.emit (new Values (sentence)); 
) 


GOverride 
public void ack(Object id) {} 
GOverride 
public void fail(Object id) () 
GOverride 


public void declareOutputFields (OutputFieldsDeclarer declarer) ( 
declarer.declare (new Fields ("word")); 
) 
} 


RandomSentenceSpout 类 的 主要 作用 ， 是 随机 产生 句子 。 其 中 最 重要 的 为 nextTuple K 
数 ， 可 以 看 到 ， 每 次 都 会 随机 地 从 字符 串 数组 中 选中 一 条 记录 进行 发 送 。 作 为 一 个 字段 进 
行 发 送 ， 字 段 名 为 word. 

SplitSentence 类 的 作用 是 对 句子 进行 分 词 操作 ， 本 操作 通过 splitsentence.py 脚本 完成 。 

SplitSentence 类 的 具体 代码 如 下 : 


public static class SplitSentence extends ShellBolt 
implements IRichBolt ( 
public SplitSentence() ( 
super("python", "splitsentence.py"); 
} 
@Override 
public void declareOutputFields (OutputFieldsDeclarer declarer) { 
declarer.declare (new Fields ("word")); 
} 
GOverride 
public Map«String, Object» getComponentConfiguration() ( 
return null; 
} 
} 


Splitsentence.py 的 内 容 如 下 : 


import storm 


数据 ; 
«d 从 基础 理论 到 最 佳 实践 


class SplitSentenceBolt (storm.BasicBolt): 
def process(self, tup): 
words = tup.values[0].split(" ") 
for word in words: 
storm.emit ([word]) 
SplitSentenceBolt().run() 


很 明显 ， 该 Python 脚本 以 空格 作为 分 隔 符号 对 输入 的 字符 串 进行 切 分， 每 个 单词 作为 
下 一 个 阶段 的 处 理 单元 。 
WordCount 类 的 具体 实现 代码 如 下 : 


public static class WordCount extends BaseBasicBolt ( 

Map«String, Integer» counts = new HashMap«String, Integer»(); 
GOverride 
public void execute(Tuple tuple, BasicOutputCollector collector) ( 

String word = tuple.getString(0); 

Integer count - counts.get (word); 

if (count == null) 

count = 0; 

count++; 

counts .put (word, count); 

collector.emit (new Values (word, count) ); 

JMysql gmysql = new JMysql(); 

JTimer gtime = new JTimer(); 

String host Wk A 71:00" 

String db = "shaka"; 

String user = "shaka"; 

String passwd = "teststorm"; 

int ret = gmysql.initConnect (host, db, user, passwd); 

if (0 != ret) 

t 





System.out.println("create db conncet error."); 
return; 
H 
String sql - "select count(*) from t stage wordcount where word- 
+ word + "'"; 国 
boolean re = gmysql.exeSQL Exist (sql); 
String updatetime = gtime.getCurrentTime(); 








if (true == re) ( 
// 累 加 处 理 
Sql = "update t stage wordcount set updatetime- * updatetime 
+ "', count-"«count +" where word-'" + word + "'"; 
) else { 
sql = 


"insert into t_stage_wordcount (word, count, updatetime) values ('" 
* word * "'," + count + ",'" + updatetime + "');"; 
H 
ret = gmysql.exeSQL DUI (sql); 
ret = gmysql.freeConnect(); 
} 
GOverride 
public void declareOutputFields (OutputFieldsDeclarer declarer) ( 
// 从 上 一 阶段 过 滤 的 字段 


declarer.declare (new Fields("word", "count")); 
} 


单词 统计 的 主要 逻辑 是 : 对 于 新 词 ， 直 接 执 行 插入 操作 ， 如 果 是 已 存在 的 单词 ， 则 直 
接 更 新 单词 次 数 。 
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JMysql 为 封装 的 MySQL 操作 类 ， 代 码 如 下 : 


public class JMysqdl ( 
//member variables 
private Connection conn - null; 
public int initConnect (String host, String db, String user, String passwd) 
t 
try ( 
String driver = "com.mysql.jdbc.Driver"; 
String connector = "jdbc:mysql://" + host + ":3306/" + db 
+ "?characterEncoding-utf-8&allowMultiQueries- 
true&autoReconnect-true&failOverReadOnly-false"; 
//create db connect. 
Class.forName (driver); 
conn - DriverManager.getConnection(connector, user, passwd); 
return 0; 
) catch (Exception e) ( 
e.printStackTrace(); 
return 1; 
) 
) 
public int freeConnect() 
t 
try ( 
conn.close(); 
return 0; 
) catch (SQLException e) ( 
e.printStackTrace(); 
return 1; 
} 
} 
public int exeSQL DUI(String sql) 
t 
Statement stmt - null; 
int ret - -1; 
try ( 
stmt = (Statement)conn.createStatement(); 
ret = stmt.executeUpdate (sql); 
stmt.close(); 
) catch (SQLException e) ( 
e.printStackTrace(); 
} 
return ret; 
} 
public ArrayList exeSQL S(String sql) 
{ 
//set variables 


ArrayList list = new ArrayList(); 
Statement stmt - null; 
ResultSet ret - null; 
//get result 
try ( 
stmt = (Statement)conn.createStatement (); 


ret — stmt.executeQuery (sql); 
while (ret.next()) 
t 
list.add(ret.getString(1) + "," + ret.getString(2)); 
} 
stmt.close(); 
return list; 
} catch (SQLException e) { 
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e.printStackTrace(); 
return null; 
} 
} 
public boolean exeSQL Exist(String sql) 
t 
//set variables 


ArrayList list 7 new ArrayList(); 
Statement stmt = null; 

ResultSet rst = null; 

boolean ret = false; 

//get result 

try ( 


System.out.println(sql); 
stmt — (Statement)conn.createStatement () ; 
rst — stmt.executeQuery (sql); 
int count - -1; 
while(rst.next()) ( 
count - rst.getInt(1); 
} 
if(0 == count) { ret = false; } else { ret = true; } 
stmt.close(); 
return ret; 
) catch (SQLException e) ( 
e.printStackTrace(); 
return false; 


} 
启动 topology 程序 : 


[stormehadoop-nn starter]$ storm jar dist/topology-0.0.1.jar 
starter.WordCountTopology 


2. 结果 
数据 截图 如 图 10-14 所 示 。 


| 1select * from t stage wordcount order by count desc; 








word count updatetime 
the 2813 2016-04-09 23:26:28 
seven 1344 2016-04-09 23:26:28 
and 1344 2016-04-09 23:26:28 
over 714 2016-04-09 23:26:20 
714 2016-04-09 23:26:21 
714 2015-04-09 23:26:20 
2016-04-09 23:26:20 
2016-04-09 23:26:27 
712 2016-04-09 23:26:27 
712 2016-04-09 23:26:26 
712 2016-04-09 23:26:26 
712 2016-04-09 23:26:26 
712 2016-04-09 23:26:26 


gu 
BÉ 
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10.3.12. Storm WordCount( 从 Kafka 读 取 数据 ) 


进一步 改进 ， 让 数据 的 产生 不 是 随机 的 ， 而 是 从 Kafka 的 指定 topic 队列 中 获取 的 。 其 
流程 (构建 图 ) 如 图 10-15 所 示 。 


input/kafka 灌 入 RDB 


10-15 ”构建 图 






Topology 的 构建 过 程 : 


public static void main(String[] args) throws Exception ( 
TopologyBuilder builder - new TopologyBuilder(); 


String Zklist 7 "localhost:2181"; 
String data topic "mykafka"; 
String data zkpaht - "/test/wordcount/model"; 
String data zkid = "data id"; 
ZkHosts zkHosts = new ZkHosts(Zklist); 
SpoutConfig dataConfig  - 
new SpoutConfig(zkHosts, data topic, data zkpaht, data zkid); 
dataConfig.scheme = new SchemeAsMultiScheme (new StringScheme()); 
dataConfig.fetchSizeBytes = 10000000; 
dataConfig.bufferSizeBytes- 10000000; 





//builder.setSpout("spout", new RandomSentenceSpout(), 1); 
builder.setSpout("spout", new KafkaSpout (dataConfig), 1); 
builder.setBolt("split", new SplitSentence(), 1) 
.ShuffleGrouping ("spout") ; 
builder.setBolt("count", new WordCount(), 1) 
.fieldsGrouping("split", new Fields("word")); 


Config conf = new Config(); 
conf.setDebug (true); 


if (args !- null && args.length > 0) ( 
conf.setNumWorkers (1); 
StormSubmitter.submitTopology( 
args[0], conf, builder.createTopology (0); 
} 
else { 
conf.setMaxTaskParallelism(3); 
StormSubmitter.submitTopology( 
"s-word-count", conf, builder.createTopology()); 


} 
启动 topology 程序 : 


P. 


eq) 从 基础 理论 到 最 佳 实践 





[storm@hadoop-nn starter]$ storm jar dist/topology-0.0.1.jar 
Sstarter.WordCountTopology 


storm jar dist/topology-0.0.1.jar 
Starter.WordCountTopologyLoggerKafkaStormMysql 


Storm UI 截图 如 图 10-16 所 示 。 
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MySQL 数据 库 的 运行 结果 如 图 10-17 所 示 。 


1select * from t stage wordcount order by count asc; 











92 2016-04-10 00:04:14 
"status": 93 2016-04-10 00:04:16 
70.005", 93 2016-04-10 00:04:16 
"request. time": 93 2016-04-10 00:04:16 
"5760", 

"body bytes sent": 
"remote user: 
7182.92.77.57^, 
"remote add": 
40800", 
701/N0v/2015:00:01:01 93 2016-04-10 00:04:14 
"time local": 93 2016-04-10 00:04:14 
"200", 

"request: 
(inux-gnu)" 
"Wget/1.12 
"http user agent": 











图 10-17 
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10.4 小 2E 


实时 数据 系统 在 大 数据 领域 得 到 了 迅速 的 发 展 ，Storm 在 活跃 社区 成 员 的 不 断 贡 献 下 ， 
性 能 、 速 度 、 稳 定性 等 都 得 到 了 极 大 的 提升 。 同 时 ， 实 时 计算 引擎 除了 本 章 介绍 的 Storm， 
还 涌现 出 多 种 其 他 优秀 的 实时 计算 引擎 ， 如 Spark Streaming、S4 等 。 这 几 种 实时 计算 技术 
都 有 自己 的 特点 及 适用 场景 。 

本 章 通过 基本 理论 的 介绍 以 及 实例 的 操作 ， 让 读者 对 实时 数据 系统 有 更 直接 的 认识 ， 
了 解 业界 在 实时 计算 领域 的 常用 技术 架构 及 编程 实现 的 过 程 。 
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